Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 17-01-2011

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

Limiter durablement les doublons d'un fichier sans prendre de risque

17-01-2011 • Les opérations de dédoublonnage doivent obéir à des règles strictes pour améliorer votre fichier sans perdre de données.

 Constat > 

La suppression de doublons nécessite des options de sécurité afin d’éviter des suppressions anarchiques.
 

Comment viennent les doublons ?

Absence de procédure : il n’existe pas de procédure permettant de limiter la création de nouvelles données dans votre base. Si aucune procédure préventive n’existe pour empêcher la saisie de données équivalentes, votre fichier voit son nombre de doublons croître dangereusement.

Fusion : vous réunissez plusieurs fichiers venant de différentes sources (et en particulier l’achat de fichiers extérieurs). Dans ce cas, la duplication de données est inévitable si vous n’avez pas mis en place de procédure préalable de consolidation.

Forfait dédoublonnage
Dédoublonnage
ou
déduplication
Forfait tout compris
-20% à partir de

713€ 570

Infos

Quels sont les problèmes générés par les doublons ?

Les doublons sont des coûts pour votre organisation. On attribue trois types de charges liées aux doublons dans une base de données :

Le coût administratif : les doublons créent de la confusion au sein de l’organisation (comptabilité erronée, désorganisation de la facturation, lenteur du recouvrement…) et alourdissent le temps consacré à la maintenance des données (recherche des erreurs).

Le coût marketing : à chaque envoi de mailing, la dépense est inutilement alourdie par les doublons : coût d’impression, frais d’expédition, dépouillement et correction des retours.

Le déficit d’image : son coût est plus difficile à quantifier mais il n’en reste pas moins l’un des handicaps les plus pénalisant pour l’entreprise ou l’organisation qui souhaite présenter l’image la plus professionnelle d’elle-même.


Entre deux doublons, lequel détruire ?

Le dédoublonnage par l’analyse de l’adresse, de la codification de la société (SIREN, par exemple) ou de la date de naissance du client ne suffit pas toujours à réussir un dédoublonnage. Lorsque la procédure de dédoublonnage choisie retire automatiquement les doublons, on risque les suppressions abusives (overkill). A l'inverse, en utilisant une procédure trop rigide on a tendance à laisser des doublons (underkill). Le dédoublonnage nécessite un dosage entre l'overkill et l'underkill.


Quelle différence entre le dédoublonnage et la déduplication ?

Le dédoublonnage est une méthode permettant de trouver les doublons au sein d’un même fichier. Tandis que la déduplication détecte les doublons, ou rapprochements possibles entre deux ou plusieurs fichiers.

 

 Objectif > 

Utiliser des méthodes pour supprimer les doublons et mettre en place des procédures pour éviter qu’ils ne se reproduisent.

 

 Méthode > 

Forfait mailing
Normalisation
des adresses
postales

149

Infos

Phase 1 : réparer les erreurs existantes.

Réalisez les traitements adéquats pour détecter et supprimer les doublons.


Étape 1 : codifier les données de votre fichier.

Il s’agit de simplifier temporairement les libellés de votre base de données pour détecter les ressemblances de sociétés, personnes ou adresses.

Dans le cas de société, on pourra s’appuyer sur le code SIREN unique permettant de déterminer précisément une société française. Mais on pourra aussi faire appel à des algorithmes simplifiant les raisons sociales des sociétés.

S’il s’agit de personnes, on peut utiliser une conversion phonétique du nom, ce qui permet de « rattraper » des patronymes mal orthographiés.
Pour les adresses, on pourra passer par une normalisation de l’adresse postale. La Poste conseille aux organisations qui envoient des mailings de normaliser les adresses. Ceci assure une distribution plus rapide du courrier, limite les erreurs et permet aussi de diminuer le coût d’affranchissement. Mais, en dehors de ces avantages, la normalisation postale permet tout simplement de favoriser la détection de doublons.


Étape 2 : utiliser un match code.

Il s’agit de créer une codification originale s’appuyant sur tout ou partie des données de chaque enregistrement. On pourra par exemple utiliser les premières lettres du nom, les dernières lettres de l’adresse, le département et les premières lettres de la ville. Le code constitué permet de rapprocher des données ressemblantes et ainsi de détecter les doublons. Le choix du match code est déterminant pour ne pas omettre de doublons (underkill) ou pour ne pas faire de suppression abusive (overkill).


Étape 3 : s’appuyer sur la date de mise à jour quand elle existe.

La présence de cette information n’est pas évidente dans tous les fichiers, mais une date de mise à jour est pourtant l’une des méthodes les plus rapides pour déterminer parmi les doublons celui qu’il faut conserver et celui qu’il faut supprimer.


Étape 4 : faire valider les contenus par les auteurs ou propriétaires.

La méthode peut paraître difficile, mais elle est infaillible pour vérifier les données dédoublonnées. La validation peut être réalisée par le contact, ou, mieux encore, par la personne responsable du contact dans votre organisation. Cette démarche parfois fastidieuse peut être accélérée en prévoyant des envois très ciblés aux responsables de chaque contact afin qu’ils n’aient à vérifier que leurs données. Un moyen qui limite le découragement de certains. L'utilisation de l'email permet aujourd'hui d'accélérer considérablement cette étape.

 

Phase 2 : anticiper et réduire la création de doublons

Une fois votre fichier nettoyé de tous ses doubles, vous devez mettre en place des procédures permettant de limiter la création de nouveaux doublons.

  • Identifiant unique : créer un code pour chaque contact dans votre fichier. Souvent, ce code est auto-incrémenté (1, 2, 3, 4…). Le code unique permet de faciliter les dédoublonnages futurs.

  • Procédures d’alerte. Si votre système de gestion de données le permet, utilisez la méthode des match codes (voir plus haut) pour alerter les utilisateurs lorsqu’ils semblent saisir un contact déjà enregistré. C'est ce qu'on appelle le contrôle d'unicité.

  • Date de mise à jour : ajoutez toujours dans votre base de données une date de mise à jour. Il est inutile de créer une date pour chaque champ de votre base. Vous pouvez éventuellement en créer une pour la partie adresse et une autre pour le contact ou l’entreprise. Il est fortement conseillé d’ajouter, si ce n’est pas déjà fait, une mise à jour automatique de cette date qui s’ajustera à chaque modification. Par défaut, la date doit être celle de la création de la nouvelle fiche.

  • L'auteur : ajoutez le nom de la personne responsable de la donnée, souvent l'auteur de la fiche. Le nom permet de s’adresser à l’auteur de la modification quand un problème survient, de confronter les auteurs responsables des doublons. Par ailleurs, responsabiliser l’utilisateur permet d’accroître son implication dans la base de données et par conséquent d’améliorer la qualité des contenus.

 

 Solutions 
 Datalgo > 

Faciliter le dédoublonnage et la déduplication

Datalgo propose plusieurs traitements de dédoublonnage ou de déduplication de données, tous adaptés aux différents types de données existants dans les fichiers. Des traitements permettent également de réunir différents fichiers ou plusieurs versions d’un même fichier sans créer de doubles. Cette opération pouvant être réalisée par fusion à partir de la date de mise à jour ou par consolidation des données.

 

 

 

 
Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo