Datalgo

ConfidentialitéCommanderEntrepriseChercherContact

data cleaning

 Simplifiez la gestion de vos données


AccueilForfaits tout comprisDédoublonnageVérificationEnrichissementConversionNormalisationText miningStructuration

Votre métier Marketing & commercial | Ressources humaines | Finance | Communication | Juridique | Associations

Accueil > Flash conseils > Consulter > Flash du 15-02-2005

Toutes nos infos
  Solutions :
 

Forfaits tout compris
  Traitements à la carte
  Par métiers
 

Datalgo :

  Tarifs et abonnements
  Fonctionnement
  Savoir faire
  Confidentialité
 

Newsletter :

 

Flash conseil gratuit

  S'abonner
  Consulter
 

Recherche rapide :

 

L’étonnante loi de Benford détecte les irrégularités dans vos fichiers

15-02-2005 • Cette méthode facile à mettre en œuvre permet de détecter d’éventuelles irrégularités dans une base de données comptables ou dans n’importe quel fichier comportant des valeurs numériques aléatoires.

 Constat > 

La plupart des utilisateurs de base de données enregistrent dans leur fichier des données numériques pour lesquelles il est souvent difficile de repérer les erreurs de saisie.
Mises à jour groupées de données
Structuration
Mises à jour
groupées
de données
Mettez de l'ordre
dans vos données
à partir de

79

Infos

D’autant plus que ces valeurs peuvent être totalement aléatoires comme dans le cas d’informations financières : état d’inventaire, grand-livre de comptabilité, état de facturation, relevés de valeurs boursières, chiffre d'affaires, etc.

C'est également le cas de données numériques disparates sans rapports les unes avec les autres : distances relevées entre chaque arrêt d’un livreur, temps passé chaque jour à téléphoner, masses atomiques des éléments chimiques, nombre d’habitants dans chaque commune, nombre de caractères dans les pages d’un journal, audience d’un site internet, etc.

Une loi aussi simple que surprenante

Pour vérifier qu’un fichier de données ne contient pas de valeurs irrégulières ou des erreurs de saisie, on peut utiliser très simplement la loi de Benford.

Selon cette loi, la fréquence théorique d'apparition du premier chiffre d'un nombre est vérifiable. Par exemple, dans une suite de nombres aléatoires, le « 2 » à trois fois plus de chance d’être le premier chiffre de chaque nombre que le « 7 ».

Révélée en 1938 par le physicien et statisticien américain Frank Benford cette surprenante loi n’a été démontrée mathématiquement qu’en 1996 par Terence Hill malgré une utilisation fréquente par les experts comptables, statisticiens et contrôleurs du fisc.

 Fréquence du premier chiffre C = log10 (1 + 1/C ) 

Selon cette formule, le chiffre 2 apparaît en premier selon une probabilité de log10(1+1/2), soit dans 17,61% des cas.

Ainsi, selon Frank Benford, quel que soit le type d’informations traitées, les distributions de fréquences sur des séries de nombres aléatoires restent très voisines d’une échelle logarithmique.

 

 Objectif > 

Vérifier facilement la cohérence d’importantes séries de données numériques aléatoires à l’aide de la loi de Benford.

 

 Méthode > 

La vérification de données selon la loi de Benford se déroule en trois étapes : l’échantillonnage, le comptage et l’analyse.

Cette méthode très simple ne nécessite aucune connaissance théorique, mathématique ou statistique particulière.

ÉTAPE 1. L'échantillonnage

On réalise dans cette première phase une sélection des données à analyser pour minimiser le volume d’informations à traiter. On extrait de façon rigoureusement aléatoire les données d’un champ pour obtenir une série d’environ un millier de nombres.

Si votre base de données comporte moins de 40 000 lignes, vous pouvez éventuellement vous passer de cette étape.

ÉTAPE 2. Le comptage

On compte le nombre de valeurs commençant par « 1 », puis « 2 » et ainsi de suite jusqu’au chiffre « 9 ».

Cette opération peut facilement se réaliser dans un tableur de type Excel. Par exemple, la formule « =LEFT(A1;1) » peut renvoyer la première valeur du nombre contenu dans la cellule A1.

ÉTAPE 3. L’analyse

On observe la représentativité du premier chiffre et on la compare aux valeurs types proposées par Benford.


Exemple A

Ce premier exemple (A) montre qu’il y a peu d’écarts entre les valeurs de références préconisées par Benford et les valeurs comptabilisées dans la base de données (Mes données A).


Exemple B

Dans cet autre exemple (B), le chiffre 4 apparaît beaucoup plus de fois que prévu par la loi de Benford (13,89% – 9,69%, soit un écart de 4,2 points) tandis que le chiffre 6 n’est pas assez représenté (écart de 3,09 points). Il est donc très probable qu’il y ait une irrégularité dans les données enregistrées.

Lorsqu’un écart est trop important, on observe les valeurs relevées dans l’échantillon (ici les valeurs commençant par 4 et par 6) afin de vérifier la véracité des données. Puis on extrapole les relevés d’erreurs à l’ensemble de la base de données.

On voit ainsi qu’il est très facile d’utiliser la loi de Benford pour vérifier de grandes séries de nombres aléatoires dans une base de données.

 

 Solutions 
 Datalgo > 

Faites réaliser un audit de base de données avec la loi de Benford

Datalgo propose un audit complet de votre base de données, incluant pour certains champs une analyse selon la loi de Benford.

 

 

 

 

Tous droits réservés
Le contenu de cette lettre d'information
ne saurait engager la responsabilité de Datalgo.

 

FORFAITS | Dédoublonnage | Vérification | Enrichissement | Conversion | Normalisation | Text mining | Structuration
 Contact | A propos de Datalgo | Chercher | Commander | © Datalgo