Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 17-07-2006

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

Limitez dès maintenant la création de doublons

17-07-2006 • En développant un contrôle d'unicité sur vos bases de données vous réduisez en amont la création de doublons préjudiciables à la qualité des fichiers.

 Constat > 

La gestion des doublons constitue un problème majeur au sein des bases de données. Les traitements correctifs peuvent être fastidieux. La détection de doublons approchants dans un fichier est une pratique complexe (les données se ressemblent sans être identiques). Mais surtout, la correction par fusion des doublons est une opération à risque :

- Quelle fiche choisir parmi deux doublons ?
- Quels sont les impacts d'une fusion sur l'ensemble de la structure du fichier ?

En effet, lorsqu'une base de données relationnelles (SGBDR) comprend des données mères et filles, la fusion de doublons doit aussi comprendre toutes les données filles.

Un exemple dans une base de données : si une société (donnée mère) est enregistrée en double, les achats (données filles) de cette société sont répartis à deux endroits. Le regroupement du doublon vers la bonne fiche doit aussi déplacer tous les achats déjà enregistrés du doublon vers la fiche valide. Cette opération nécessite donc une grande rigueur pour être réussie.

Ces troubles amènent souvent des problèmes dans la facturation et plus généralement sur l'ensemble de la chaîne des services liés au client : commercial, livraison, comptabilité, recouvrement, service après vente, etc.

Forfait dédoublonnage
Dédoublonnage
ou
déduplication
Forfait tout compris
-20% à partir de

713€ 570

Infos

Trois raisons principales expliquent la création de doublons : la fusion d'une organisation (rachat de société), l'achat de fichiers externes (prospection), le manque de contrôle à la saisie. Ce dernier cas est le plus courant : l'utilisateur au moment de la saisie ne vérifie pas si la fiche qu'il créé est déjà dans la base de données.
 

Plusieurs motifs expliquent pourquoi l'utilisateur ne contrôle pas les doublons

  • Confidentialité : il ne peut pas accéder à l'ensemble des fiches pour vérifier l'existence d'une donnée (cf. partage et confidentialité des données),
     
  • Volumétrie : le nombre de données est tel que l'utilisateur ne peut pas prendre le temps d'effectuer une vérification,
     
  • Complexité : au moment où il créé sa fiche, l'utilisateur n'a pas assez d'informations pour s'assurer de l'unicité. Par exemple, en créant la société "SNCF" sans son numéro Siret, il ne pourra constater que cette société existe déjà avec une autre raison sociale : "Société Nationale des Chemins de Fer".
     
  • Historique : quelque soit la typologie des données, les dénominations évoluent. Ainsi, une femme mariée peut changer de patronyme, une société peut être rebaptisée ou fusionnée ("Safran" réunit désormais "Snecma" et "Sagem"), une marque évolue (dernièrement, de nombreuses entités de "France Telecom" se sont transformées en "Orange") ou simplement un produit a plusieurs appellations (la "Renault 4" et la "4L").

 

 Objectif > 

Mettre en place un contrôle d'unicité préventif pour éviter la création de doublons dans une base de données

 

 Méthode > 

Forfait mailing
Normalisation
des adresses
postales

149

Infos

Le contrôle d'unicité s'effectue en trois étapes

- contrôler la donnée en cours de saisie,
- alerter l'utilisateur lorsqu'il y a un doublon potentiel,
- et l'assister pour prendre la bonne décision.

Étape 1 : Contrôler la donnée

Cette étape consiste à comparer la saisie de l'opérateur avec les données déjà enregistrées dans la base. Par exemple, on regardera si le nom de société n'existe pas déjà. On pourra dans ce cas comparer la raison sociale, mais aussi le numéro Siret ou d'autres paramètres.

Si le champ sur lequel il faut éviter à tout prix la saisie de doublons est en indexation unique, l'application détectera et interdira automatiquement la saisie en double d'un même libellé. Mais dans les faits, il est rare qu'on puisse toujours proposer une indexation unique car les doublons ne concernent pas toujours un seul champ. Les doublons doivent être partiellement acceptés. Ainsi, une base de contacts devra autoriser des patronymes identiques alors que les prénoms sont différents. Et encore ! Dans certaines circonstances, le prénom et le nom d'une personne peuvent être identiques. C'est le cas de "Michel Martin", "Sarah Cohen" ou "François Nguyen" qui sont des contacts fréquents. De même, pour des bases de sociétés, on pourra rencontrer plusieurs fois un concessionnaire Citroën. Seule l'adresse fera la différence.

En somme, la détection du doublon met en jeu une combinaison de champs dans une base de données (match code). On pourra par exemple réaliser un contrôle à partir des premières lettres du nom, du numéro de département et de la ville. Dans des situations plus complexes, on pourra même réaliser une analyse phonétique pour contourner les problèmes de saisie erronée.

 

Étape 2 : Alerter l'utilisateur

L'application devra être conçue pour afficher un message dès qu'une possibilité de doublon est détectée. Ce message devra rappeler les coordonnées ou la référence de la fiche en doublon.

Par exemple, le message sera :


  CITROEN à Bordeaux existe déjà sous la référence "CIT022"  
 

 

 

Si il y a plusieurs possibilités de doublons, le message pourra être personnalisé ainsi :


  Il y a déjà 2 concessionnaires CITROEN à Bordeaux dont les références sont :  
  CIT022 et CIT129.
 

 

 

 

Étape 3 : Assister l'utilisateur

Pour aller plus loin dans l'efficacité du procédé, on pourra donner des choix à l'utilisateurs et l'accompagner vers la bonne donnée. De fait, le message de l'exemple précédent pourra se transformer en :


  CITROEN à Bordeaux existe déjà sous la référence "CIT022" !
  Confirmez-vous la création ou souhaitez-vous consulter la fiche "CIT022" ?  

  [ Créer ]    [ Consulter ]
 

 

 

 

Lorsque les doublons potentiels sont multiples, on adoptera une liste à choix multiples :


  Votre saisie risque d'être un doublon, voulez-vous :  
 
  [ Vérifier la fiche CIT022, 33 rue Trichet ]
  [ Vérifier la fiche CIT129, 15 avenue Corneille ]
  [ Vérifier la fiche CIT203, 3 place du marché ]
  [ Créer tout de même cette fiche ]
 

 

 

 

 

Le contrôle d'unicité en cours de création d'une nouvelle donnée favorise considérablement la qualité d'une base de données. C'est ainsi qu'un simple module de contrôle permet de façon peu contraignante d'améliorer l'appropriation d'une application. Si ce processus n'est pas mis en place il faudra régulièrement détecter puis fusionner les doublons.

 

 Solutions 
 Datalgo > 

Faites réaliser le contrôle de vos doublons dans vos bases de données

Datalgo réalise plusieurs traitements permettant de détecter les doublons de vos bases de données :

Consultez-nous pour vos demandes plus précises ou complexes.

 

 
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo