|
|
|
|
|
Mesurer la qualité d’une base de données
16-05-2011 • Apprécier la qualité d’un fichier de données permet de préparer les mesures nécessaires à son amélioration, et de fait, limite les coûts d’exploitation.
|
Constat >
|
|
Une base de données étant une valeur immatérielle, il est difficile d’en apprécier facilement les qualités et les défauts. Pourtant, cette valeur a un impact assez large sur votre organisation et ses coûts.
La qualité d’une base de données dépend de la perception subjective des contacts et des utilisateurs ainsi que de l’analyse détaillée
de son contenu :
Le perçu des contacts
En d’autres termes, il s’agit, quand il y en a, des personnes enregistrées dans une base de données. Ce peut être des clients, des fournisseurs, des salariés, des adhérents, des donateurs, etc. Ces personnes perçoivent négativement les erreurs qui sont liées à leur personne ou à l’entité morale qu’elles représentent. L’un des exemples les plus criant est celui d’une personne décédée dont l’entourage reçoit encore pendant plusieurs mois la correspondance.
Le perçu par l’utilisateur

 |
| SIREN |
| Vérifiez vos codes |
|
à partir de |
|
69€ |
|
 |
|
|
On qualifie d’utilisateur le ou les personnes qui ont un usage courant du contenu de la base de données. Ils apportent parfois des mises à jours ou des ajouts, mais surtout ils se servent des informations qu’elle contient. Or, si ceux-ci perçoivent la qualité des données de façon assez subjective, ils sont pourtant les premiers à convaincre du bon usage des contenus qui leur sont confiés. Ainsi,
la plupart des utilisateurs apprécient la qualité des contenus en fonction de la plus mauvaise des données. Il suffit qu’une fiche sur plusieurs centaines soit fausse ou manquante pour que
l’utilisateur condamne l’ensemble de la base.
Ce déficit d’image entraîne un cercle vicieux qui a plusieurs impacts auprès des utilisateurs :
- ils condamnent arbitrairement l’ensemble des données,
- ils ne participent plus à l’enrichissement d’une source commune partagée,
- ils perdent la confiance de ceux qui administrent les données,
- ils en viennent à créer des bases de données
personnelles ou font l’acquisition de fichiers
externes.
La qualité intrinsèque
La mesure précise de la valeur qualitative d’un fichier permet de connaître son intérêt réel. Certes, il est pratiquement impossible d’obtenir du
« zéro défaut » sur une importante quantité d’information, mais on peut tendre vers une qualité maximum.
Il arrive souvent qu’un fichier contenant des informations triées par ordre alphabétique soit de bonne qualité sur la première partie mais son contenu se détériorer à mesure que les lettres de l’alphabet s’approchent du « Z » !
Manque de temps, fatigue visuelle et parfois défaut de motivation sont les causes de cette altération progressive des données.
Dans d’autres cas, la qualité est proportionnelle à l’intérêt de la cible. Ainsi, par exemple, un fichier pourra être mieux renseigné sur un périmètre géographique ou sur un secteur d’activité. Nonobstant, même avec une forte acuité,
la nature humaine descend très rarement en dessous des 1%
d’erreurs. Au pire, on pourra donc trouver une faute de frappe tous les 100 caractères, au mieux, toutes les 100 lignes !
|
Objectif >
|
|
| Utiliser une méthode d’analyse de la qualité permettant d’apprécier de façon objective la qualité de toute la base de données.
|
|
Méthode >
|
|
Mesurer les erreurs à partir d’un échantillon représentatif des données contenues dans vos fichiers et analyser les paramètres importants de votre base de données.
Comme on l’a vu, il est difficile de maintenir une qualité à 100%, il est de même pour l’analyse d’un fichier. Inutile de balayer toutes les données, mieux vaut consacrer son attention
sur un échantillon représentatif.
Phase A : L’échantillonnage du fichier
Étape 1 : Déterminez le nombre total de fiches dans votre base, puis créez un échantillon dans lequel vous allez sélectionner les 10 premières et 10 dernières fiches de votre base et ajoutez au hasard des fiches représentant 5% à 10% du nombre total de fiches, selon la taille de votre base de données.
Étape 2 : Étudiez votre échantillon et ajoutez un point de pénalité dès qu’une fiche répond à l’une de ces conditions :
- la fiche est vierge, elle a sans doute été créée par erreur,
- la fiche est en double, elle a été créée plusieurs fois,
- la fiche comporte une information erronée,
- la fiche comporte une information trop ancienne,
- la fiche est hors cible, elle ne devrait pas figurer dans la base de données,
Notez qu’un test d’envoi par mailing à partir de l’échantillon permet d’avoir un aperçu complémentaire du contenu.
Phase B : L’analyse des paramètres du fichier
Après cette analyse par le détail sur un échantillon, réalisez
maintenant un comptage sur l’ensemble de la base. Ajoutez autant de points de pénalité que de fiches dans l’échantillon. Par exemple, si votre échantillon comporte 100 fiches, à chaque fois que vous pouvez répondre positivement à l’une des questions ci-dessous, ajoutez 100 points.
- les contenus des fiches ne sont pas homogènes, il n’y a pas de norme de saisie ou chacun a codifié des données importantes selon sa propre habitude,
- la base de données est incomplète, il manque des fiches,
- il existe des codifications pour certains champs mais elles ne peuvent pas ou ne sont pas respectées,
- il n’existe pas de date de mise à jour de chaque fiche,
- tout le monde est libre d’ajouter, modifier ou supprimer des données,
- vous ne pouvez pas connaître les personnes ayant mis à jour une fiche (si la base de données est partagée),
- vous n’avez pas de sauvegarde régulière de vos données,
- récupérer une sauvegarde est un processus long qui pénalise votre production.
Phase C : Les résultats d’analyse
Totalisez le nombre de points et reportez-le au nombre total de fiches dans votre base de
données :
|
Score = |
Nb total de points de pénalité par fiches |
+ |
Nb total de points de pénalité sur la base complète |
|
|
|
Nb total de fiches dans la base de données |
Si vous trouvez un score inférieur à 3% votre base de données est probablement de qualité, au-dessus, alerte ! Vous devez mettre en œuvre des moyens d’optimisation sur votre fichier.
|
Solutions
Datalgo >
|
|
Améliorer la qualité des données
Datalgo propose un audit de fichier permettant une analyse
détaillée des anomalies ou points forts d'une base de données.
Une synthèse permet d'appréhender l'ensemble des contenus.
Par ailleurs, trois opérations proposées par Datalgo permettent d’améliorer la fiabilité des données et par conséquent de réduire
le coût d’exploitation de vos fichiers :
|
|
|
|
|
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.
|
|
|