Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 16-05-2011

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

Mesurer la qualité d’une base de données

16-05-2011 • Apprécier la qualité d’un fichier de données permet de préparer les mesures nécessaires à son amélioration, et de fait, limite les coûts d’exploitation.

 Constat > 

Une base de données étant une valeur immatérielle, il est difficile d’en apprécier facilement les qualités et les défauts. Pourtant, cette valeur a un impact assez large sur votre organisation et ses coûts. La qualité d’une base de données dépend de la perception subjective des contacts et des utilisateurs ainsi que de l’analyse détaillée de son contenu :

Le perçu des contacts

En d’autres termes, il s’agit, quand il y en a, des personnes enregistrées dans une base de données. Ce peut être des clients, des fournisseurs, des salariés, des adhérents, des donateurs, etc. Ces personnes perçoivent négativement les erreurs qui sont liées à leur personne ou à l’entité morale qu’elles représentent. L’un des exemples les plus criant est celui d’une personne décédée dont l’entourage reçoit encore pendant plusieurs mois la correspondance.

Le perçu par l’utilisateur

Vérification des codes SIREN
SIREN
Vérifiez vos codes
à partir de

69

Infos

On qualifie d’utilisateur le ou les personnes qui ont un usage courant du contenu de la base de données. Ils apportent parfois des mises à jours ou des ajouts, mais surtout ils se servent des informations qu’elle contient. Or, si ceux-ci perçoivent la qualité des données de façon assez subjective, ils sont pourtant les premiers à convaincre du bon usage des contenus qui leur sont confiés. Ainsi, la plupart des utilisateurs apprécient la qualité des contenus en fonction de la plus mauvaise des données. Il suffit qu’une fiche sur plusieurs centaines soit fausse ou manquante pour que l’utilisateur condamne l’ensemble de la base.

Ce déficit d’image entraîne un cercle vicieux qui a plusieurs impacts auprès des utilisateurs :

  • ils condamnent arbitrairement l’ensemble des données,
  • ils ne participent plus à l’enrichissement d’une source commune partagée,
  • ils perdent la confiance de ceux qui administrent les données,
  • ils en viennent à créer des bases de données personnelles ou font l’acquisition de fichiers externes.

La qualité intrinsèque

La mesure précise de la valeur qualitative d’un fichier permet de connaître son intérêt réel. Certes, il est pratiquement impossible d’obtenir du « zéro défaut » sur une importante quantité d’information, mais on peut tendre vers une qualité maximum.

Il arrive souvent qu’un fichier contenant des informations triées par ordre alphabétique soit de bonne qualité sur la première partie mais son contenu se détériorer à mesure que les lettres de l’alphabet s’approchent du « Z » ! Manque de temps, fatigue visuelle et parfois défaut de motivation sont les causes de cette altération progressive des données

Dans d’autres cas, la qualité est proportionnelle à l’intérêt de la cible. Ainsi, par exemple, un fichier pourra être mieux renseigné sur un périmètre géographique ou sur un secteur d’activité. Nonobstant, même avec une forte acuité, la nature humaine descend très rarement en dessous des 1% d’erreurs. Au pire, on pourra donc trouver une faute de frappe tous les 100 caractères, au mieux, toutes les 100 lignes !

 

 Objectif > 

Utiliser une méthode d’analyse de la qualité permettant d’apprécier de façon objective la qualité de toute la base de données.

 

 Méthode > 

Mesurer les erreurs à partir d’un échantillon représentatif des données contenues dans vos fichiers et analyser les paramètres importants de votre base de données.

Comme on l’a vu, il est difficile de maintenir une qualité à 100%, il est de même pour l’analyse d’un fichier. Inutile de balayer toutes les données, mieux vaut consacrer son attention sur un échantillon représentatif.

Phase A : L’échantillonnage du fichier

Étape 1 : Déterminez le nombre total de fiches dans votre base, puis créez un échantillon dans lequel vous allez sélectionner les 10 premières et 10 dernières fiches de votre base et ajoutez au hasard des fiches représentant 5% à 10% du nombre total de fiches, selon la taille de votre base de données.

Étape 2 : Étudiez votre échantillon et ajoutez un point de pénalité dès qu’une fiche répond à l’une de ces conditions :

  • la fiche est vierge, elle a sans doute été créée par erreur,
  • la fiche est en double, elle a été créée plusieurs fois,
  • la fiche comporte une information erronée,
  • la fiche comporte une information trop ancienne,
  • la fiche est hors cible, elle ne devrait pas figurer dans la base de données,

Notez qu’un test d’envoi par mailing à partir de l’échantillon permet d’avoir un aperçu complémentaire du contenu.

Phase B : L’analyse des paramètres du fichier

Après cette analyse par le détail sur un échantillon, réalisez maintenant un comptage sur l’ensemble de la base. Ajoutez autant de points de pénalité que de fiches dans l’échantillon. Par exemple, si votre échantillon comporte 100 fiches, à chaque fois que vous pouvez répondre positivement à l’une des questions ci-dessous, ajoutez 100 points.

  • les contenus des fiches ne sont pas homogènes, il n’y a pas de norme de saisie ou chacun a codifié des données importantes selon sa propre habitude,
  • la base de données est incomplète, il manque des fiches,
  • il existe des codifications pour certains champs mais elles ne peuvent pas ou ne sont pas respectées,
  • il n’existe pas de date de mise à jour de chaque fiche,
  • tout le monde est libre d’ajouter, modifier ou supprimer des données,
  • vous ne pouvez pas connaître les personnes ayant mis à jour une fiche (si la base de données est partagée),
  • vous n’avez pas de sauvegarde régulière de vos données,
  • récupérer une sauvegarde est un processus long qui pénalise votre production.

Phase C : Les résultats d’analyse

Totalisez le nombre de points et reportez-le au nombre total de fiches dans votre base de données :

 Score =

Nb total de points de pénalité par fiches

+

Nb total de points de pénalité sur la base complète

 

Nb total de fiches dans la base de données

Si vous trouvez un score inférieur à 3% votre base de données est probablement de qualité, au-dessus, alerte ! Vous devez mettre en œuvre des moyens d’optimisation sur votre fichier.

 

 Solutions 
 Datalgo > 

Améliorer la qualité des données

Datalgo propose un audit de fichier permettant une analyse détaillée des anomalies ou points forts d'une base de données. Une synthèse permet d'appréhender l'ensemble des contenus.

Par ailleurs, trois opérations proposées par Datalgo permettent d’améliorer la fiabilité des données et par conséquent de réduire le coût d’exploitation de vos fichiers :

 

 

 

 

Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo