Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 15-05-2008

Toutes nos infos
  Solutions :
Forfaits tout compris
Traitements à la carte
Par métiers

Datalgo :

Tarifs et abonnements
Fonctionnement
Savoir faire
Confidentialité

Newsletter :

Flash conseil gratuit

S'abonner
Consulter

Recherche rapide :

Contrôlez la qualité sur de gros volumes de données

15-05-2008 • Le contrôle de cohérence des données nécessite souvent une double approche autour d’une validation automatique et d’une revue manuelle des données, parfois difficile sur un grand volume de données.

 Constat > 

Les bases de données souffrent avec le temps d’une érosion de la qualité des contenus. La prise en charge par des personnes différentes est le plus souvent l’origine de cette altération. A cela deux raisons : certains utilisateurs ne connaissent ou ne comprennent pas les procédures de saisie, ou bien, les sources d’informations sont de qualité médiocre.
TVA Intracommunautaire
numéro de
TVA
Intracommunautaire
conversion
depuis le
SIREN
à partir de

159

Infos

Nombreuses sont les entreprises qui souhaitent dans ce cas réaliser un audit et un contrôle de leurs fichiers pour en connaître les faiblesses et entreprendre des améliorations. Un audit des données est réalisable à partir d’outils de traitements spécifiques : détection des doublons, contrôle des normes de saisie, vérification des codes utilisés, exploration des caractères parasites, comptage des données manquantes, irrégularités de saisie aléatoire, etc.

L’approche généralement usitée pour ce type de diagnostic qualité consiste à réaliser une série de traitements automatiques à l’issue duquel on obtient une liste d’erreurs classées :

  • Les données de qualité,

  • Les données douteuses (un contrôle manuel s’impose pour s’assurer qu’il n’y a pas de problème),

  • Les données erronées.

Dans le deuxième cas, lorsque les données sont détectées comme pouvant être dégradées, un contrôle manuel est préconisé. Néanmoins, lorsque le volume de données à contrôler est important, le contrôle exhaustif de la base de données peut être rédhibitoire.

 

 Objectif > 

Réaliser un contrôle qualité de ses données par échantillonnage

 

 Méthode > 

Dans un premier temps, on réalisera un contrôle des codifications et des occurrences sur l’ensemble des données. Des traitements précis permettent d’identifier rapidement le nombre d’erreurs. Ces traitements sont de plusieurs types :

  • Le contrôle des doublons : détection des doublons exacts (DURAND = DURAND) ou approchants (DURAND = DURANT)

  • La vérification des codes (cohérence des Siren, NAF, TVA Intra communautaire, codes postaux, etc.)

  • La détection de biais non-aléatoires : la loi de Benford favorise une détection de saisies erronées parmi des nombres qui devraient être totalement aléatoires (par exemple, le nombre de litres de carburant vendus chaque jour, le CA réalisé chaque semaine, etc.)

  • La normalisation des données : soit parce que les données doivent répondre à une logique interne, soit que ces données doivent respecter des normes nationales ou internationales (par exemple pour la saisie des adresses postales).

  • La cohérence des champs : contrôle d’un champ avec un autre, par exemple, le code postal de NICE doit forcément commencer par un « 06 » ; ou encore, un téléphone sur Paris qui commence par « 04 » est probablement une erreur.
    Après un tel contrôle qui peut être fait en automatique, on réalise un contrôle manuel.
    Lorsque le volume de données est important, on utilise la technique du PAD.

Forfait mailing
Normalisation
des adresses
postales

149

Infos

Technique du PAD

Cette technique consiste à sélectionner :

  • P = 1% des Premières données saisies,
  • A = 1% de données Aléatoires,
  • D = 1% des Dernières données saisies.

En d’autres termes, on analyse le début et la fin du fichier, et l’on ajoute une analyse aléatoire sur un échantillon du reste. Généralement le début et la fin du fichier peuvent être déterminés par l’identifiant auto incrémenté ou par la date de saisie. S’intéresser aux premières et dernières lignes d’un fichier permet de détecter des modifications dans les habitudes de saisie, c’est souvent la différence de ces deux parties extrêmes qui permet une analyse pertinente des données. A cela, on ajoute une analyse des données contenues « au milieu » du fichier en sélectionnant les fiches de façon aléatoires.

Comment sélectionner les fiches selon la technique PAD ?

Si votre fichier n’excède pas 65 536 lignes vous pouvez utiliser Microsoft Excel (pour des volumétries supérieures, il faudra utiliser des outils plus puissants).

Dans Excel, triez votre fichier par date de création des fiches (ou par leur numéro croissant de date de création). Ajoutez une colonne vierge que vous pourrez intituler « Fiches sélectionnées » dans laquelle vous placerez sur les 1% des premières fiches le chiffre 1. Faites de même sur les 1% dernières. Par exemple, si votre fichier comporte 13 432 lignes, vous aurez répété le chiffre 1 dans cette colonne sur 2 × 134 lignes. Sur les lignes intermédiaires, ajoutez dans cette même colonne la formule « RAND() ». Vous allez obtenir un chiffre aléatoire sur chacune des cellules.

Une fois cette initialisation réalisée, triez la colonne « Fiches sélectionnées », vous obtenez un fichier trié d’une part sur les 2% de lignes correspondant au début et à la fin du fichier (les fiches avec le chiffre 1), et d’autre part des fiches distribuées de façon aléatoire (généralement commençant par zéro, suivi de plusieurs décimales). Ne retenez à nouveau que 1% de ces fiches, ce qui constituera le dernier 1% de fiches à analyser.

Dans l’exemple précisé, vous aurez ainsi sur les 12 432 lignes au total, une analyse avec 134 lignes au début, 134 lignes aléatoires, et 134 lignes à la fin du fichier, soit 3% de votre fichier ; ou un total de 402 fiches a analyser manuellement. Si vous estimez que votre échantillon est trop ou pas assez grand, modifier votre sélection en prenant un pourcentage plus ou moins élevé (2% au lieu de 1%).

Ainsi, en utilisant la technique PAD, vous allez réaliser une vérification manuelle de vos données sur un échantillon d’enregistrements représentatif de l’activité passée, courante et récente de votre base de données, de la façon la plus objective possible. 

 

 Solutions 
 Datalgo > 

Enrichissez vos fichiers de contacts

Datalgo propose des traitements pour contrôler la qualité des données :

Consultez-nous pour vos demandes plus précises ou complexes.

 

 

Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo