Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 15-03-2006

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

Adopter une méthodologie efficace pour supprimer les doublons dans ses fichiers

15-03-2006 • La plupart des organisations amenées à qualifier ou manipuler des fichiers sont soumises à des problèmes de doublons. Une méthode éprouvée permet de limiter les informations dupliquées sans pour autant supprimer des données importantes.

 Constat > 

Selon les dernières études réalisées en France, six entreprises sur dix admettent que la mauvaise qualité de leurs données génère des coûts supplémentaires. Parmi les principaux problèmes rencontrés on compte : les adresses erronées ou NPAI, le suivi des contacts périmés, les données qualificatives (CA, code d'activité, effectif, etc) et enfin les doublons. Ce manque de rigueur dans la qualité des données altère l'image de la société ou de l'organisation qui émet des messages en double – ou triple – auprès de ses destinataires. L'envoi d'informations en plusieurs exemplaires au même destinataire accroît les coûts d'impression et de routage. Mais elle diminue aussi le taux des retours et les bénéfices possibles : gestion de la facturation erronée, procédures de recouvrement inutiles, livraison de produits en plusieurs exemplaires, etc.
Forfait dédoublonnage
Dédoublonnage
ou
déduplication
Forfait tout compris
-20% à partir de

713€ 570

Infos

D'où viennent les doublons ?

Les trois causes les plus fréquentes de générations de doublons sont : la fusion de données, l’achat de fichiers externes et la création ex nihilo.

Fusion : c'est le cas lorsque deux organisations ou entités sont amenées à fusionner leur base clients. Par exemple : une entreprise doit reconstituer sa base clients après un rachat, une filiale tente de consolider son portefeuille de clients avec celui de la maison mère, ou plus simplement, le service commercial et la comptabilité veulent travailler sur des bases homogènes.

Fichiers externes : afin de développer son portefeuille de prospects, certaines directions commerciales font l'acquisition de fichiers externes achetés auprès de prestataires spécialisés. L'intégration de ces données externes dans une base de données existante peut générer de très nombreux doublons.

Création ex nihilo : hélas, de nombreuses bases de données ne vérifient pas l'unicité des données au moment de la saisie d'un nouvel enregistrement. Or, le contrôle d'unicité est un élément déterminant dans le choix ou le développement d'une application informatique.

 

 Objectif > 

Mettre en place une procédure contrôlée de déduplication

 

 Méthode > 

L'opération de dédoublonnage peut se réaliser en six étapes :
  1. Établir la typologie du fichier,
  2. Identifier la clef de dédoublonnage stricte,
  3. Détecter les doublons approchants,
  4. Rédiger un scénario de fusion,
  5. Déterminer des seuils de validation,
  6. Corriger la base de données.

Étape 1 : établir la typologie du fichier

Lorsqu'il s'agit de fichiers d'entreprises, dans la majorité des cas, la démarche préalable consiste à repérer les doublons d'entreprises avant même de traiter les doublons de contacts.

Étape 2 : identifier la clef de dédoublonnage stricte

Pour les doublons d'entreprises, on commencera par identifier la clef unique de la société : Siren, Siret, ISIN, code TVA intracom ou autre code identifiant unique.

Pour les doublons de contacts, on pourra sélectionner un code unique : numéro de sécurité sociale, numéro de compte bancaire (RIB ou IBAN), numéro de carte de crédit, etc.

Une détection des doublons stricts sera réalisée sur ces codifications. Ainsi, si deux Siren sont communs, la procédure alertera sur la présence de doublons ou supprimera le plus ancien (voir étape 4, ci-dessous).

Étape 3 : détecter les doublons approchants

C'est l'étape la plus délicate qui fait appel à des traitements informatiques souvent complexes. Ces opérations permettent de trouver des doublons alors même que les données ne sont pas exactement enregistrées de la même façon. Ainsi, les deux lignes ci-dessous sont bien des doublons mais ne se ressemblent pourtant pas.

Mme Anne-Françoise de Souza
Mach-3 SA
13-15 avenue du Général de Gaulle
92577 Courbevoie Cedex

Madame Anne Francoise Souza (de)
Mach 3 Group
13 av du Gal de Gaulle
92400 Courbevoie

Dans cet exemple, la civilité, le prénom, la société, l'adresse, le code postal et la ville sont chacun différents, soit par leur orthographe, soit au travers de leur sémantique. Pourtant, il y a peu de doute pour qu'il s'agisse bien de la même personne au sein de la même société.

Forfait mailing
Normalisation
des adresses
postales

149

Infos

Pour détecter les doublons, on utilisera plusieurs solutions, simultanément ou successivement, selon la typologie du fichier à traiter :

  • Analyse par match code : un code est reconstitué à partir de différents morceaux de l'adresse,
     
  • Analyse orthographique : une simplification de l’orthographe et des signes diacritiques est mise en place,
     
  • Analyse phonétique : on codifie les mots tel qu'on les entend, et non tels qu'ils peuvent être écrits,
     
  • Analyse sémantique : on donne plus de poids à certains mots en fonction de leur emplacement et de leur utilité,
     
  • Analyse par similitude : la comparaison de deux chaînes de caractères permet d’exprimer par un pourcentage la différence entre deux lignes dans un fichier. Cette fonction permet entre autre de s’affranchir des erreurs de saisie (par exemple : "Courbevoie" ressemble à "Courveboie").

    Cette phase permettra d'éditer une liste de doublons avec un pourcentage de ressemblance.

Étape 4 : rédiger un scénario de fusion

Lorsque les doublons auront été identifiés dans une ou plusieurs bases de données, il conviendra d'établir des règles de fusions. Celles-ci pourront être différentes selon le pourcentage de ressemblance entre deux doublons.

On pourra préciser par exemple :

  • si la fiche A a été mise à jour après la fiche B, on conserve la fiche A,
  • si la fiche A est plus complète que la fiche B, on conserve la fiche A,
  • si le téléphone est renseigné dans B mais pas dans A, on récupère le téléphone de la fiche A,
  • si des commentaires sont présents dans les fiches A et B, on place le commentaire B à la suite du commentaire A,
  • entre deux fiches A et B on prend toujours la date de création la plus ancienne.
  • etc.

Étape 5 : déterminer des seuils de validation

Afin d'obtenir un dédoublonnage optimal, on pourra s'appuyer sur un seuil de ressemblance au delà duquel la fusion ne sera plus automatique mais manuelle. Ainsi, on pourra estimer que la fusion sur des fiches avec un taux de ressemblance inférieur à 85% nécessitera une validation manuelle et un rejet automatique en dessous de 40%.

Le choix des seuils sera défini en fonction des risques et du volume à traiter.

  • Premier seuil : validation automatique (risque mineurs).
  • Deuxième seuil : validation contrôlée manuellement.
  • Troisième seuil : rejet automatique (risques majeurs).

La validation humaine permettra la prise en compte de paramètres difficilement modélisables (par exemple comprendre que telle société a fusionné avec telle autre, ou qu'un nom de jeune fille peut être rapproché d'un nom de femme mariée.

Le conseil d'un spécialiste de ce type de traitement vous permettra de prendre la bonne décision pour minimiser les risques sans toutefois être contraint à un trop lourd travail de validations manuelles.

 

Ressemblance Exemple de doublons potentiels Risque Seuils

95%

M Pierre Lemaire
Arcadia
125 rue Lecourbe
75015 Paris

M. Pierre Lemaire
Arcadia Sarl
125, rue Lecourbe
75015 Paris

underkill Fusion
automatique

85%
Mme Anne-Françoise de Souza
Mach-3 SA
13-15 avenue du Général de Gaulle
92577 Courbevoie Cedex

Madame Anne Francoise Souza (de)
Mach 3 Group
13 av du Gal de Gaulle
92400 Courbevoie

underkill Fusion
automatique

40%
Luc St Etienne
Elf
Place des Reflets
92435 La Défense Cedex

Luc Saint Etienne
Total
Place des Reflets
92435 Paris La Défense

overkill Contrôle
manuel

15%
Adrien Leduc
Firmatri
12 place des deux Soleils
82310 Solliès Ville

Adrien Latouche
Kernel SA
2 place Solliès
82310 La Farlède

overkill Rejet
automatique


En matière de dédoublonnage, la notion de risque s'évalue en pourcentage de ressemblance sur un échelle qu'illustrent les termes anglo-saxons : overkill et underkill.

En d'autres termes, lorsqu'on est overkill, on risque de supprimer ou fusionner des doublons qui n'en sont pas (si par exemple on fusionne automatiquement des fiches dont la ressemblance n'est que de 30%).

A l'inverse, on évoque le underkill, lorsqu'on risque de laisser passer des doublons (si par exemple on refuse de fusionner automatiquement des fiches dont la ressemblance est de 95%). Le dédoublonnage est affaire d'appréciation et de mesure des risques.

Étape 6 : Corriger la base de données

A partir du fichier des doublons et du scénario retenu, on réalise un traitement informatique qui va fusionner ou supprimer automatiquement les données dupliquées dans la base de données.

 

 

 Solutions 
 Datalgo > 

Faites réaliser le dédoublonnage de votre fichier

Datalgo propose une multitude de solutions pour détecter les doublons cachés dans vos bases de données.

Consultez-nous pour vos demandes plus précises ou complexes de dédoublonnage ou de déduplication.

 

 
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo