|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Exemple de texte non structuré
|
|
|
Structuration sous forme de base de données
|
Quelles types de sources Datalgo peut-il structurer ?
Datalgo utilise généralement comme fichier de départ un texte non structuré. Ce peut être par exemple une liste d'articles mis les uns derrière les autres dans un document Word (doc), texte (txt) ou Acrobat (pdf). Ce peut aussi être une extraction d'une autre base de données (un carnet d'adresses issu d'un Palm Pilot ou d'une base Notes) ou encore une série d'étiquettes d'adressage.
Comment Datalgo structure-t-il les données ?
Une procédure permet d'effectuer le transfert vers une base de données :
- analyse dans le document des différentes catégories de données,
- étude de faisabilité,
- marquage des données identifiées par champs,
- création des champs dans la base de données,
- formatage par typologie des différents champs : texte, numérique, date, oui/non, etc.
- exportation des données brutes vers la nouvelle base de données
- tests de cohérence
- exportation du fichier sous le format souhaité.
Attention ! Tous les fichiers ne peuvent pas être traités par Datalgo. Une certaine formalisation des textes est nécessaire. Celle-ci est parfois liée à une forme de présentation, ou à la présence de mots ou de formats courants.
Les données structurées en base de données sont exportées sous forme des formats de fichiers suivant :
- dBASE III, III+, IV et 5
- Paradox, Paradox pour Windows 3.x, 4.x, et 5.0
- Microsoft Excel 3.0, 4.0, 5.0, 7.0/95, 8.0/97, et 9.0/2000
- Rich Text Format (.rtf)
- Lotus 1-2-3 .wk1 et .wk3 formats
- Microsoft Access database 2.0, 7.0/95, 8.0/97, 9.0/2000
- Texte délimité par des caractères (point virgule, tabulation…)
- Texte à largeur fixe (Fixed-width text)
Pour en savoir plus, consulter l'aide consacrée aux différents formats de fichiers.
Quelle différence entre un système de base de données et un système de gestion de base de données relationnelles (ou SGBDR) ?
La base de données permet une exploitation très simple des données dites "verticales". C'est à dire que toutes les données sont contenues dans le même fichier. L'emploi de la base est très simple puisque tout est au même endroit. Les requêtes avec des tris ou des sélections sont faciles à réaliser, même avec un simple tableur comme Excel ou un outil collaboratif comme Lotus Notes.
A l'inverse, le SGBDR nécessite une bonne connaissance des bases de données. Son emploi est plus complexe, car il organise l'information par thèmes, chaque type de données étant dans un fichier particulier. Ceci permet un usage très personnalisé et très complet des données lorsqu'on les met en relation. La structuration en SGBDR exige un temps important de préparation (selon une méthodologie inspirée par Meurise).
|