Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 15-11-2004

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

Valoriser ses données en initialisant un processus qualité « PDCA » 

15-11-2004 • La qualité des données peut devenir une contrainte si on n'adopte pas une procédure simple et efficace telle que la méthode « PDCA » pour rendre ses bases de données plus performantes.

 Constat > 

Mises à jour groupées de données
Structuration
Mises à jour
groupées
de données
Mettez de l'ordre
dans vos données
à partir de

79

Infos

Deux facteurs majeurs sont en cause dans la diminution de la qualité des bases de données.

Le laxisme

La base de données accumule depuis des années des données non validées. Les lacunes, erreurs ou doublons se développent. L'obsolescence de certaines informations se confond avec des données à jour. Les utilisateurs finissent par perdre confiance car d'une fiche à l'autre, la qualité est très variable. Ils ne retiennent d'ailleurs pour la plupart d'entre eux que l'image négative du produit.

La contrainte

La mise à jour de la base de données est si contraignante que les utilisateurs hésitent à la compléter. Paradoxalement, cela induit une mauvaise qualité : informations manquantes, zones incomplètes ou illogiques, etc. C'est le cas, par exemple, de certains questionnaires dont les réponses multiples mais imposées sont si précises que le sondé se lasse et finit par répondre n'importe quoi.

Le manque de processus fiables ou l'excès de contraintes ne sont pas les bonnes solutions pour améliorer la qualité d'une base de données.

 

 Objectif > 

Mettre en place un processus qualité itératif « PDCA » destiné à optimiser la base de données et à conforter les besoins des utilisateurs.

 

 Méthode > 

Adapter le processus qualité imaginé par le statisticien et qualiticien américain W. Edwards Deming. La « roue de Deming » est un processus cyclique qui améliore la qualité des données tout en réduisant les besoins de correction. Cette méthode évite l’usage abusif de la qualité en terme de contrainte (effet « gendarme ») et limite les effets pervers du « rattrapage » des altérations (effet « pompier »).

Deming décompose en quatre étapes le processus qualité : Plan, Do, Check, Act (Planifier, Dérouler, Contrôler, Améliorer).


1. PLAN (planifier)

Cette première étape sert à définir les objectifs en fonction des besoins : identifier les problèmes, mesurer les écarts, définir les contraintes imposables et acceptables, adopter des indicateurs. Cette phase se termine par la proposition des solutions et la définition des objectifs.

Dans le cas d'une base de données, on pourra se poser les questions suivantes :

  • Quels sont les champs incomplets, non normalisés, erronés... et quels indicateurs qualité faut-il imaginer : exhaustivité, nombre d’erreurs, respect des normes ?
  • Combien y a t-il de doublons stricts ou ressemblants, quelles sont les causes et les remèdes pour les éradiquer ?
  • Quelles sont les données essentielles ou superflues ?
  • Quels sont les facteurs positifs améliorant la confiance des utilisateurs envers l'outil, quels sont les freins rencontrés par ces mêmes utilisateurs ?
  • Quels sont les critères qui permettent de mesurer, fiche par fiche, l'obsolescence des données (date de mise à jour) ?

2. DO (dérouler)

Lors de cette deuxième étape on réalise les objectifs. Il s'agit donc de la phase de réalisation.

Plus précisément, les exemples ci-dessous illustrent des actions à mettre en place :

  • Ajouter une date de mise à jour pour chaque fiche : ce champ, s'il n'existe pas, permet de concentrer les efforts sur les données anciennes et d'optimiser la sélection des données les plus à jour.
  • Harmoniser le contenu de certains champs dont les informations sont récurrentes (on impose par exemple trois formes de civilité – M., Mme, Mlle – plutôt que de la saisie libre).
  • Faciliter le contrôle direct de la saisie : un champ code postal est par exemple immédiatement complété ou vérifié par le nom de la commune. Ces procédures d'automatisation peuvent être limitées aux données les plus couramment utilisées (par exemple, au moment de la saisie, la mise à jour de la ville d'après le code postal est réservée aux plus importantes agglomérations françaises). Il s'agit de mesures a priori.
  • Créer des requêtes permettant à tout instant de mesurer les incohérences, voire d'automatiser les processus de correction (mesure a posteriori). On lance par exemple des traitements réguliers permettant d'isoler les erreurs de saisie ou les doublons.
  • Modérer la mise à jour et la saisie des données : ce processus plus lourd mais particulièrement pertinent, nécessite une étape de validation des données par une tierce personne appelée : « modérateur ». La modification n'est réellement prise en compte et publiée qu'après validation. Un système de « work flow » peut également compléter le processus de validation : envoi d'un courrier électronique de validation.

3. CHECK (contrôler)

On vérifie à cette étape que les opérations réalisées correspondent bien aux objectifs définis lors de la planification. Pour cette analyse, on s'aide pour des indicateurs prédéfinis dont on peut mesurer l'évolution dans le temps ou les écarts avec les prévisions.

On pourra mesurer dans une base de données :

  • Nombre de mises à jours effectuées dans le mois, le trimestre et l'année.
  • Diminution du nombre de doublons.
  • Nombre d'erreurs de saisie.
  • Pour un fichier de contacts, mesure des NPAI (retour du courrier N'habitant Pas à l'Adresse Indiquée).
  • Statistiques sur les usages (fréquentation) de la base de données.

4. ACT (améliorer)

Cette étape vise à rechercher les nouvelles améliorations à apporter à la base de données. La méthode PDCA est évolutive car son processus est itératif. Les améliorations enregistrées amènent de nouvelles possibilités d'optimisation.

Il est souvent intéressant de sélectionner dans la première étape (plan) des objectifs modestes et réalisables que l'on pourra par la suite enrichir lors de la quatrième étape d'amélioration (act). Et ainsi relancer le processus qualité au travers d’un nouveau cycle de la roue de Deming.

On aura vite compris que le processus imaginé par Deming et adapté aux bases de données permet une amélioration continue de la qualité, en totale adéquation avec les contenus, les outils et les utilisateurs.

 

 Solutions 
 Datalgo > 

Lors de la phase de planification (Plan) du processus PDCA, Datalgo propose un audit complet de votre base de données permettant de recueillir des critères de qualité objectifs et très précis. En renouvelant cet audit à la phase de contrôle (Check), vous mesurerez les écarts et permettrez l’amélioration continue de la qualité.

Dans la phase de déroulement (Do), Datalgo propose des traitements ciblés par types de données. Ces traitements adaptés permettent d’enrichir, de convertir et de normaliser vos données.

 

 

 

 
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo