|
|
|
|
|
Contrôlez la qualité sur de gros volumes de
données
15-05-2008 Le contrôle de cohérence des données nécessite souvent
une double approche autour dune validation automatique et dune revue manuelle
des données, parfois difficile sur un grand volume de données.
|
Constat >
|
|
Les bases de données souffrent avec le temps dune
érosion de la qualité des contenus. La prise en charge par des personnes différentes
est le plus souvent lorigine de cette altération. A cela deux raisons : certains
utilisateurs ne connaissent ou ne comprennent pas les procédures de
saisie, ou bien, les sources dinformations sont de qualité médiocre.

 |
| numéro de |
TVA
Intracommunautaire |
conversion
depuis le
SIREN |
|
à partir de |
|
159€ |
|
 |
|
|
Nombreuses sont les entreprises qui souhaitent dans ce cas réaliser un audit
et un contrôle de leurs fichiers pour en connaître les faiblesses et entreprendre des
améliorations. Un audit des données est réalisable à partir doutils de
traitements spécifiques : détection des
doublons, contrôle des normes de saisie, vérification
des codes utilisés, exploration des caractères parasites, comptage
des données manquantes, irrégularités de saisie aléatoire, etc.
Lapproche généralement usitée pour ce type de diagnostic qualité
consiste à réaliser une série de traitements automatiques à lissue duquel on
obtient une liste derreurs classées :
Dans le deuxième cas, lorsque les données sont détectées comme pouvant
être dégradées, un contrôle manuel est préconisé. Néanmoins, lorsque le
volume de données à contrôler est important, le contrôle exhaustif de la base de
données peut être rédhibitoire.
|
Objectif >
|
|
| Réaliser un contrôle qualité de ses données par
échantillonnage |
|
Méthode >
|
|
Dans un premier temps, on réalisera un contrôle
des codifications et des occurrences sur lensemble des données. Des traitements
précis permettent didentifier rapidement le nombre derreurs. Ces traitements
sont de plusieurs types :
Le contrôle des doublons : détection des doublons exacts (DURAND =
DURAND) ou approchants (DURAND =
DURANT)
La vérification des codes (cohérence des Siren, NAF, TVA Intra communautaire, codes postaux, etc.)
La détection de biais non-aléatoires : la loi de Benford favorise une détection
de saisies erronées parmi des nombres qui devraient être totalement aléatoires (par
exemple, le nombre de litres de carburant vendus chaque jour, le CA réalisé chaque
semaine, etc.)
La normalisation des données : soit parce que les données doivent
répondre à une logique interne, soit que ces données doivent respecter des normes
nationales ou internationales (par exemple pour la saisie des adresses postales).
La cohérence des champs : contrôle dun champ avec un autre,
par exemple, le code postal de NICE doit forcément commencer par un
« 06 » ; ou encore, un téléphone sur Paris qui commence par
« 04 » est probablement une erreur.
Après un tel contrôle qui peut être fait en automatique, on réalise un contrôle
manuel.
Lorsque le volume de données est important, on utilise la technique du PAD.

 |
Normalisation
des adresses
postales |
|
149€ |
|
 |
|
|
Technique du PAD
Cette technique consiste à sélectionner :
- P = 1% des Premières données saisies,
- A = 1% de données Aléatoires,
- D = 1% des Dernières données saisies.
En dautres termes, on analyse le début et la fin du fichier, et
lon ajoute une analyse aléatoire sur un échantillon du reste.
Généralement le début et la fin du fichier peuvent être déterminés par
lidentifiant auto incrémenté ou par la date de saisie. Sintéresser aux
premières et dernières lignes dun fichier permet de détecter des modifications
dans les habitudes de saisie, cest souvent la différence de ces
deux parties extrêmes qui permet une analyse pertinente des données. A cela, on ajoute
une analyse des données contenues « au milieu » du fichier en sélectionnant
les fiches de façon aléatoires.
Comment sélectionner les fiches selon la technique PAD ?
Si votre fichier nexcède pas 65 536 lignes vous pouvez utiliser Microsoft
Excel (pour des volumétries supérieures, il faudra utiliser des outils plus puissants).
Dans Excel, triez votre fichier par date de création des fiches (ou par leur numéro
croissant de date de création). Ajoutez une colonne vierge que vous pourrez intituler
« Fiches sélectionnées » dans laquelle vous placerez sur les 1% des
premières fiches le chiffre 1. Faites de même sur les 1% dernières. Par exemple, si
votre fichier comporte 13 432 lignes, vous aurez répété le chiffre 1 dans cette
colonne sur 2 × 134 lignes. Sur les lignes intermédiaires, ajoutez dans cette
même colonne la formule « RAND() ». Vous allez obtenir un chiffre aléatoire
sur chacune des cellules.
Une fois cette initialisation réalisée, triez la colonne « Fiches
sélectionnées », vous obtenez un fichier trié dune part sur les 2% de
lignes correspondant au début et à la fin du fichier (les fiches avec le chiffre 1), et
dautre part des fiches distribuées de façon aléatoire (généralement commençant
par zéro, suivi de plusieurs décimales). Ne retenez à nouveau que 1% de ces fiches, ce
qui constituera le dernier 1% de fiches à analyser.
Dans lexemple précisé, vous aurez ainsi sur les 12 432 lignes au total,
une analyse avec 134 lignes au début, 134 lignes aléatoires, et 134 lignes à la fin du
fichier, soit 3% de votre fichier ; ou un total de 402 fiches a analyser
manuellement. Si vous estimez que votre échantillon est trop ou pas assez grand, modifier
votre sélection en prenant un pourcentage plus ou moins élevé (2% au lieu de 1%).
Ainsi, en utilisant la technique PAD, vous allez réaliser une vérification
manuelle de vos données sur un échantillon denregistrements représentatif
de lactivité passée, courante et récente de votre base de données, de la façon
la plus objective possible.
|
Solutions
Datalgo >
|
|
Enrichissez vos fichiers de contacts
Datalgo propose des traitements pour contrôler la qualité des
données :
- Audit de fichiers : passez en
revue l'ensemble d'une base de données à l'aide d'un rapport détaillé et illustré.
- Détection des doublons :
identiques, similaires, raisons sociales, noms de personnes, adresses, phonétique, etc.
- Vérification des codifications : NAF, NACE,
Siren, Siret, TVA Intracom, RIB, IBAN, ISIN
- Contrôle des données : jours fériés,
numéros de sécurité sociale, codes géographiques utilisés à des fins
statistiques
Consultez-nous pour vos demandes plus précises ou
complexes.
|
|
|
|
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.
|
|
|