Constat >
|
|
Selon les dernières études réalisées en France, six entreprises
sur dix admettent que la mauvaise qualité de leurs données génère
des coûts supplémentaires. Parmi les principaux problèmes
rencontrés on compte : les adresses erronées ou
NPAI, le suivi
des contacts périmés, les données qualificatives (CA, code
d'activité, effectif, etc) et enfin les doublons. Ce manque de
rigueur dans la qualité des données altère l'image de la
société ou de l'organisation qui émet des messages en double – ou
triple – auprès de ses destinataires. L'envoi d'informations en
plusieurs exemplaires au même destinataire accroît les coûts
d'impression et de routage. Mais elle diminue aussi le taux des
retours et les bénéfices possibles : gestion de la facturation
erronée, procédures de recouvrement inutiles, livraison de produits
en plusieurs exemplaires, etc.

 |
Dédoublonnage
ou
déduplication |
| Forfait tout compris |
| -20%
à partir de |
|
713€ 570€
|
|
 |
|
|
D'où viennent les doublons ?
Les trois causes les plus fréquentes de générations de doublons
sont : la fusion de données, l’achat de fichiers externes et la
création ex nihilo.
Fusion : c'est le cas lorsque deux organisations ou entités sont amenées à
fusionner leur base clients. Par exemple : une entreprise doit
reconstituer sa base clients après un rachat, une filiale tente de
consolider son portefeuille de clients avec celui de la maison mère, ou
plus simplement, le service commercial et la comptabilité veulent
travailler sur des bases homogènes.
Fichiers externes : afin de développer son portefeuille de
prospects, certaines directions commerciales font l'acquisition de
fichiers externes achetés auprès de prestataires spécialisés.
L'intégration de ces données externes dans une base de données
existante peut générer de très nombreux doublons.
Création ex nihilo : hélas, de nombreuses bases de
données ne vérifient pas l'unicité des données au moment de la
saisie d'un nouvel enregistrement. Or, le contrôle d'unicité est un
élément déterminant dans le choix ou le développement d'une
application informatique.
|
Méthode >
|
|
L'opération de dédoublonnage peut se réaliser en six étapes :
- Établir la typologie du fichier,
- Identifier la clef de dédoublonnage stricte,
- Détecter les doublons approchants,
- Rédiger un scénario de fusion,
- Déterminer des seuils de validation,
- Corriger la base de données.
Étape 1 : établir la typologie du fichier
Lorsqu'il s'agit de fichiers d'entreprises, dans la majorité des
cas, la démarche préalable consiste à repérer les doublons
d'entreprises avant même de traiter les doublons de contacts.
Étape 2 : identifier la clef de dédoublonnage stricte
Pour les doublons d'entreprises, on commencera par
identifier la clef unique de la société : Siren, Siret, ISIN, code
TVA intracom ou autre code identifiant unique.
Pour les doublons de contacts, on pourra sélectionner un code
unique : numéro de sécurité sociale, numéro de compte bancaire (RIB
ou IBAN), numéro de carte de crédit, etc.
Une détection des doublons stricts sera réalisée sur ces
codifications. Ainsi, si deux Siren sont communs, la procédure
alertera sur la présence de doublons ou supprimera le plus ancien
(voir étape 4, ci-dessous).
Étape 3 : détecter les doublons approchants
C'est l'étape la plus délicate qui fait appel à des traitements
informatiques souvent complexes. Ces opérations permettent de
trouver des doublons alors même que les données ne sont pas
exactement enregistrées de la même façon. Ainsi, les deux lignes
ci-dessous sont bien des doublons mais ne se ressemblent pourtant
pas.
Mme Anne-Françoise de Souza
Mach-3 SA
13-15 avenue du
Général de Gaulle
92577 Courbevoie Cedex
Madame Anne Francoise Souza (de)
Mach 3 Group
13 av du Gal
de Gaulle
92400 Courbevoie
Dans cet exemple, la civilité, le prénom, la société, l'adresse,
le code postal et la ville sont chacun différents, soit par leur
orthographe, soit au travers de leur sémantique. Pourtant, il y a peu de
doute pour qu'il s'agisse bien de la même personne au sein de la
même société.

 |
Normalisation
des adresses
postales |
|
149€ |
|
 |
|
|
Pour détecter les doublons, on utilisera plusieurs solutions,
simultanément ou successivement, selon la typologie du fichier à
traiter :
- Analyse par match code : un code est reconstitué à
partir de différents morceaux de l'adresse,
- Analyse orthographique : une simplification de
l’orthographe et des signes diacritiques est mise en place,
- Analyse phonétique : on codifie les mots tel qu'on les
entend, et non tels qu'ils peuvent être écrits,
- Analyse sémantique : on donne plus de poids à
certains mots en fonction de leur emplacement et de leur utilité,
- Analyse par similitude : la comparaison de deux chaînes
de caractères permet d’exprimer par un pourcentage la
différence entre deux lignes dans un fichier. Cette fonction
permet entre autre de s’affranchir des erreurs de saisie (par exemple
: "Courbevoie" ressemble à "Courveboie").
Cette phase permettra d'éditer une liste de doublons avec un
pourcentage de ressemblance.
Étape 4 : rédiger un scénario de fusion
Lorsque les doublons auront été identifiés dans une ou plusieurs
bases de données, il conviendra d'établir des
règles de fusions.
Celles-ci pourront être différentes selon le pourcentage de
ressemblance entre deux doublons.
On pourra préciser par exemple :
- si la fiche A a été mise à jour après la fiche B, on conserve
la fiche A,
- si la fiche A est plus complète que la fiche B, on conserve la
fiche A,
- si le téléphone est renseigné dans B mais pas dans A, on
récupère le téléphone de la fiche A,
- si des commentaires sont présents dans les fiches A et B, on
place le commentaire B à la suite du commentaire A,
- entre deux fiches A et B on prend toujours la date de création
la plus ancienne.
- etc.
Étape 5 : déterminer des seuils de validation
Afin d'obtenir un dédoublonnage optimal, on pourra s'appuyer sur
un seuil de ressemblance au delà duquel la fusion ne sera
plus automatique mais manuelle. Ainsi, on pourra estimer que la
fusion sur des fiches avec un taux de ressemblance inférieur à 85%
nécessitera une validation manuelle et un rejet automatique en
dessous de 40%.
Le choix des seuils sera défini en fonction des risques et du
volume à traiter.
- Premier seuil : validation automatique (risque mineurs).
- Deuxième seuil : validation contrôlée manuellement.
- Troisième seuil : rejet automatique (risques majeurs).
La validation humaine permettra la prise en compte de paramètres
difficilement modélisables (par exemple comprendre que telle société
a fusionné avec telle autre, ou qu'un nom de jeune fille peut être
rapproché d'un nom de femme mariée.
Le conseil d'un spécialiste de ce type de traitement vous
permettra de prendre la bonne décision pour minimiser les risques
sans toutefois être contraint à un trop lourd travail de
validations manuelles.
| Ressemblance |
Exemple de doublons potentiels |
Risque |
Seuils |

95% |
M
Pierre
Lemaire
Arcadia
125
rue
Lecourbe
75015
Paris
M. Pierre
Lemaire
Arcadia Sarl
125,
rue
Lecourbe
75015
Paris |
underkill |
Fusion
automatique |

85% |
Mme Anne-Françoise de
Souza
Mach-3 SA
13-15 avenue du Général
de Gaulle
92577
Courbevoie CedexMadame
Anne Francoise
Souza (de)
Mach
3 Group
13 av du Gal
de Gaulle
92400
Courbevoie |
underkill |
Fusion
automatique |

40% |
Luc St
Etienne
Elf
Place des Reflets
92435 La Défense Cedex
Luc
Saint Etienne
Total
Place des Reflets
92435 Paris
La Défense |
overkill |
Contrôle
manuel |

15% |
Adrien Leduc
Firmatri
12 place des deux Soleils
82310 Solliès Ville
Adrien Latouche
Kernel SA
2 place Solliès
82310 La Farlède |
overkill |
Rejet
automatique |
En matière de dédoublonnage, la notion de risque s'évalue en
pourcentage de ressemblance sur un échelle qu'illustrent les termes
anglo-saxons : overkill et underkill.
En d'autres termes, lorsqu'on est overkill, on risque de
supprimer ou fusionner des doublons qui n'en sont pas (si par
exemple on fusionne automatiquement des fiches dont la ressemblance
n'est que de 30%).
A l'inverse, on évoque le underkill, lorsqu'on
risque de laisser passer des doublons (si par exemple on refuse de
fusionner automatiquement des fiches dont la ressemblance est de
95%). Le dédoublonnage est affaire d'appréciation et de mesure
des risques.
Étape 6 : Corriger la base de données
A partir du fichier des doublons et du scénario retenu, on
réalise un traitement informatique qui va fusionner ou
supprimer automatiquement les données dupliquées dans la base de
données.
|