Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 15-11-2007

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

Sécuriser la fusion manuelle de doublons

15-11-2007 • La fusion de deux fiches en double dans une base de données est une opération chronophage et risquée qu’une fonction spécifique de fusion permet de sécuriser.

 Constat > 

Il est très rare qu’une base de données puisse s’enorgueillir de n’avoir pas de doublons. Les référentiels de contacts ou de sociétés sont généralement les plus touchés par les doublons. Ces doublons apparaissent selon deux cas de figure :
  • un fichier a été importé dans la base de données et a généré des fiches en double,
  • un utilisateur a créé une nouvelle fiche sans vérifier au préalable l’existence d’une fiche équivalente.

Ce deuxième cas est très fréquent sur les fichiers répertoriant, par exemple, des sociétés ou des particuliers.

Forfait dédoublonnage
Dédoublonnage
ou
déduplication
Forfait tout compris
-20% à partir de

713€ 570

Infos

Dans le cas de sociétés, un outil de gestion se doit de proposer un contrôle d’unicité au moment de la création d’une nouvelle fiche. Ainsi, une alerte prévient l’utilisateur dès lors qu’il risque de créer un doublon, sans pour autant bloquer la fiche d’une nouvelle société à la raison sociale homonyme. Dans certains cas, l'outil prend également en compte les raisons sociales approchantes (Ex : Fargot SARL et Société Fargot) ou les patronymes ayant la même phonétique (Ex : Schmitt et Schmidt).

Malheureusement, ce contrôle n’est pas infaillible et pas toujours applicable. C'est le cas par exemple des réseaux de franchisés ou des offices notariaux. Dans un cas, l’enseigne diffère de la raison sociale, dans l’autre, le nombre de notaires présents dans une même étude rend aléatoire le contrôle.

Certaines organisations obligent leurs collaborateurs à saisir un numéro de Siret pour toute nouvelle création de société. Un contrôle d’unicité dans l’outil de gestion permet automatiquement d’alerter l’utilisateur avant qu’il créé un doublon de Siret. Ceci étant dit, cette contrainte n’est pas toujours possible et freine parfois la démarche commerciale. En effet, peu de clients ou de prospects connaissent par cœur les quatorze chiffres qui composent le numéro d’enregistrement au registre du commerce. De plus, cette contrainte n’est pas possible pour des sociétés immatriculées à l’étranger, qui ne possèdent pas les mêmes codifications. Certaines sociétés dont le périmètre de clientèle est circonscrit à l’Union européenne ont tenté de placer un contrôle d’unicité sur le numéro de TVA Intracommunautaire, malheureusement, bien qu’obligatoire en Europe, ce numéro est aujourd’hui très difficile à obtenir.

Dans le cas de fichiers de particuliers, l’opération est tout aussi délicate. Les couples mariés ou divorcés viennent perturber le repérage automatique de doublons. La présence ou l’absence de prénoms, ou l’enregistrement du prénom du mari pour l’épouse complexifie également la déduplication.

En somme, la création de doublons se fait naturellement et ne peut être contrôlée automatiquement avec 100% de réussite. La détection de doublons à postériori, par exemple lors de traitement en masse n’a pas non plus un score de réussite parfait.

En conséquence, la plupart des administrateurs de base de données sont amenés à fusionner manuellement leurs données. Ils choisissent entre les deux fiches en double celle qu’ils veulent conserver et recopient, généralement champ par champ, les données manquantes. Par exemple, deux sociétés créées en double devront nécessiter le dédoublonnage d’une des sociétés et le rapatriement sur une seule fiche de toutes les commandes déjà réalisées, et/ou de tous les contacts identifiés dans la société. Un travail pas toujours facile et générateur d’erreurs.

 

 Objectif > 

Fusionner un doublon sans perte de données

 

 Méthode > 

Forfait mailing
Normalisation
des adresses
postales

149

Infos

Le contrôle d'unicité s'effectue en trois étapes

Il est nécessaire pour tout administrateur de base de données de disposer d’une fonction facilitant la fusion de doublons de façon semi-manuelle. On entend par fusion semi-manuelle une fonction qui facilite la fusion de deux fiches tout en laissant à l'utilisateur la main sur la gestion ponctuelle de la fusion.

La fusion semi-manuelle est réalisée en cinq étapes :

  1. Sélection des deux fiches à fusionner.

  2. Détermination de la donnée maîtresse.

  3. Complétude de la fiche maîtresse.

  4. Rapatriement des données filles.

  5. Suppression de l’ancienne fiche.

1. Sélection des deux fiches à fusionner

Votre outil de gestion de base de données permettra la sélection des deux fiches qui devront fusionner. Soit la sélection s’effectue en « cochant » les deux fiches à fusionner. Soit, cas plus fréquent, on ouvre l’une des fiches et l’on demande ensuite par une commande spéciale à appeler la fiche en double.

2. Détermination de la donnée maîtresse

L’outil doit permettre de faire son choix parmi les deux fiches à fusionner. L’utilisateur choisira en général la plus récente ou la plus complète. Celle-ci sera alors considérée comme étant la fiche maîtresse vers laquelle seront rapatriées les autres données.

3. Complétude de la fiche maîtresse

Cette étape consiste à s’assurer que la fiche maîtresse comportera bien le maximum d’informations à jour venant de l’ancienne fiche. Généralement, on fera le choix de ne pas supprimer les données existantes de la fiche maîtresse, mais d’autoriser éventuellement le rapatriement de données plus complètes. Par exemple, si la fiche maîtresse ne comporte pas d’adresse email, on pourra rapatrier celle de la fiche à fusionner. Mais si chaque fiche contient un email différent, il conviendra le cas échéant de faire un copier/coller manuel pour ajuster la donnée choisie par l’utilisateur (à moins qu’une règle de gestion décide de toujours prendre la plus récente des deux données).

4. Rapatriement des données filles

Dans une base de données relationnelle (SGBD/R), on appelle la donnée mère la table qui réunit plusieurs données filles. Par exemple, un client réalise plusieurs achats. On parle alors de relations de 1 à N. C'est-à-dire, que le client peut avoir 0, 1, 2, 3, 50, 100 ou N achats. Dans le cas d’une fusion, toutes les données filles de la fiche à supprimer devront rejoindre la fiche maîtresse. Su l'une des fiches possède 5 achats et l'autre 3, la nouvelle fiche fusionnée devra bien comporter 8 achats.

.

 

5. Suppression de l’ancienne fiche

Pour être complète, la procédure devra réaliser la suppression de l’ancienne fiche. Dans certains cas, on préférera archiver cette fiche avec une codification spéciale plutôt que de la supprimer.

Une telle fonctionnalité de fusion semi-manuelle, une fois mise en place sur une base de données permet d’améliorer la qualité du contenu tout en sécurisant et en rendant plus rapide la procédure de fusion.

 

 Solutions 
 Datalgo > 

Faites réaliser le contrôle de vos doublons dans vos bases de données

Datalgo réalise plusieurs traitements permettant de détecter les doublons de vos bases de données :

Consultez-nous pour vos demandes plus précises ou complexes.

 

 
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo