Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 15-05-2009

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

Du papier au numérique, comment accélérer le transfert ?

15-05-2009 • Associer des documents papiers avec une base de données clients, fournisseurs ou produits est une opération parfois complexe. C'est pourtant un moyen facile de limiter certains risques et de fluidifier les flux administratifs. Comment structurer une information papier sous forme de base de données ?

 Constat > 

Les données classées dans des chemises cartonnées représentent des risques importants pour les entreprises :
Forfait text mining
Text mining
Forfait tout compris
-20% à partir de

1492€ 1193

Infos

  • Une accessibilité réduite : les dossiers ne peuvent être rapidement consultés par l’entreprise ou – dans certains cas – par le client. La gestion d’un grand volume de dossiers nécessite des déplacements, impossibles lorsque la personne interrogée est au téléphone et loin de ses archives.

  • Un risque destruction accidentelle : l’incendie, l’inondation sont des sinistres qui paralysent les sociétés. Lorsque la traçabilité technique, fonctionnelle et ou juridique est rendue impossible, la société s’expose à un risque majeur pour son avenir.

  • La perte de dossiers ou de documents : la perte est plus souvent liée à une hétérogénéité des méthodes de classement plutôt qu’à une distraction. Le cas des cartes de visites est souvent à l’origine d’un manque de rigueur commerciale : après le rendez-vous, les cartes de visites sont égarées ou classées par ordre alphabétique ce qui rend difficile la relance sélective.

  • L’encombrement : la masse volumétrique des documents prend dans certaines activités une proportion inquiétante qui nécessite parfois l’externalisation des dossiers, et diminue d’autant leur accessibilité.

  • Le vol de dossiers : les entreprises qui fonctionnent avec des forces de ventes le savent : un commercial indélicat parti à la concurrence peut emmener avec lui ses dossiers. Si rien n’est tracé, le préjudice commercial peut s’avérer important et difficile à contrer devant les tribunaux.

  • La relation client : le principe de partage de l’information pour un même client par différents acteurs de la relation sur la chaîne de traitement ne peut facilement se réaliser sur un support papier ; à moins de multiplier les photocopies. Il s’en suit un coût supplémentaire et une altération de la politique de développement durable de l’entreprise.

  • Les délais de consultation et de recherche plus longs : la papier ne facilite pas l’identification des informations rapide à l’intérieur d’un grand volume d’informations. Ainsi, la recherche de mots clefs dans des documents papiers volumineux est vouée à une grande perte de temps.

 Objectif > 

Comment assurer une numérisation efficace des documents papier ?

 

 Méthode > 

Réaliser la numérisation de document dans un processus de Gestion Électronique de Document passe par cinq étapes :
  • Déterminer le périmètre de la numérisation
  • Identifier les niveaux de qualité de documents
  • Réaliser la numérisation
  • Procéder au contrôle
  • Référencer le document.

1. Déterminer le périmètre de la numérisation

Dans quelle mesure les documents que vous souhaitez numériser doivent-ils être interprétés et structurés sous forme de texte ? La question est importante, car très structurante pour une base de données. On ne traite pas de la même manière une GED (Gestion Électronique de Document) pour des photos, des formulaires, des tableaux de données structurées ou des textes :

  • Photo : la numérisation de l’image n’entraîne aucune interprétation ou reconnaissance logique puisqu’il n’y a pas de caractères d’imprimerie à reconnaître (par exemple le cas des photos d’identité).
  • Textes non structurés : il s'agit de texte « au kilomètre », pour lequel une reconnaissance de caractère de type OCR (Optical Character Recognition, ou Reconnaissance Optique de Caractères - ROC) va transformer une image faite de caractères typographiques en un document réutilisable dans un traitement de texte.
  • Formulaires : la numérisation du document peut être complétée par un processus OCR qui va transformer des images de caractères typographiques logiquement disposées dans un espace, en champs au format texte. Les données sont interprétées et « rangées » dans les cases appropriées.
  • Tableaux de données : très proche du précédent cas, l’image représentant des colonnes de chiffres ou d’informations est interprétée par un logiciel et convertie en tableau de chiffres et de lettres.
Vérification des codes SIREN
SIREN
Vérifiez vos codes
à partir de

69

Infos

2. Identifier les niveaux de qualité de documents

  • Qualité très élevée : le contenu sera facilement reconnaissable par un logiciel qui transformera l’image en texte avec une faible marge d’erreur.
  • Qualité moyenne : la reconnaissance est encore réalisable mais elle peut être sujet à des erreurs d’interprétation.
  • Qualité mauvaise : l’outil d’analyse des images est incapable de reconnaître le texte saisi. Il faut alors renoncer à le transformer en texte, ou qualifier manuellement le document (par exemple lui attribuer un titre, via une lecture par un œil humain).

Ces niveaux de qualité peuvent être variables pour un même processus. Par exemple, les courriers de réclamation envoyés par la poste peuvent être rédigés à la main ou à l’aide d’un traitement de texte. Dans le premier cas, la lecture du document sera beaucoup plus difficile.

3. Réaliser la numérisation

Cette étape consiste à transformer le document papier en document numérique en s’appuyant sur deux outils :

  • Un scanner qui va convertir le papier en image numérique,
  • L’OCR qui va interpréter les caractères typographiques de l’image et les convertir en texte.

Dans le cas de documents de mauvaise qualité ou complexes pour lesquels il n’est pas possible de réaliser d’OCR, on pourra faire réaliser la saisie par une entreprise externe. La pratique de la saisie à l’étranger à longtemps été une bonne opportunité, mais il est préférable de doubler la saisie : on confie le traitement à deux entreprises différentes, puis on compare les documents réalisés. Ainsi, on met automatiquement en exergue les erreurs d'interprétation. C’est de loin le moyen le plus fiable pour les documents complexes, surtout s’il s’agit d’une réalisation non répétitive.
Si le document à scanner a été préalablement conçu pour la reconnaissance de caractères, on appliquera au préalable un code barre qui sera aisément reconnu (c’est le cas des chèques, ou encore des feuilles de frais dans certaines entreprises).

4. Procéder au contrôle

Le contrôle consiste à s’assurer que la reconnaissance de caractère a donné de bons résultats. Pour la numérisation de texte, la première étape consiste souvent à appliquer un correcteur orthographique sur le fichier afin de détecter les fautes de reconnaissance (confusion entre les caractères 8 et B, Z et 2, O et 0, L et I…). Dans un deuxième temps, on pourra comparer la cohérence de certaines données d’identification (par exemples les numéros de téléphone, les numéros RCS des entreprises, etc.)

5. Référencer le document.

Les documents reconnus en totalité ou partiellement doivent être classés (par thèmes, clients, produits…) Il s’agit donc d’associer les documents à des images. Le classement automatisé des fichiers numérisés dans les bons dossiers numériques peut être réalisé de deux manières :

  • Archivage des fichiers dans des répertoires dédiés sur un serveur partagé,
  • Application dédiée : les documents scannés sont intégrés dans une base de données.

Le niveau de suivi du processus de numérisation des documents est directement lié à la quantité des documents à numériser et à la qualité intrinsèque des informations brutes.

En tout état de cause, un projet de couplage GED avec une base de données est un moyen efficace pour sécuriser l’information, fluidifier les circuits administratifs et assurer un partage plus efficace des données nécessaires pour l’entreprise.

 

 Solutions 
 Datalgo > 

Contrôlez la qualité des documents numérisé :

Datalgo propose plusieurs solutions pour réaliser le contrôle et la classification des données scannées :

Consultez-nous pour vos demandes plus précises ou complexes.

 

 
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo