La plupart des utilisateurs de base de données enregistrent dans leur fichier des données numériques pour lesquelles il est souvent difficile de repérer les erreurs de saisie.

 |
| Structuration |
Mises à jour
groupées
de données |
Mettez de l'ordre
dans vos données |
|
à partir de |
|
79€ |
|
 |
|
|
D’autant plus que ces valeurs peuvent être totalement aléatoires comme dans le cas
d’informations financières : état d’inventaire, grand-livre de
comptabilité, état de facturation, relevés de valeurs
boursières, chiffre
d'affaires,
etc.
C'est également le cas de
données numériques disparates sans rapports les unes avec les autres : distances relevées entre chaque arrêt d’un livreur, temps passé chaque jour à téléphoner, masses atomiques des éléments chimiques, nombre d’habitants dans chaque commune, nombre de caractères dans les pages d’un journal, audience d’un site
internet, etc.
Une loi aussi simple que surprenante
Pour vérifier qu’un fichier de données ne contient pas de valeurs irrégulières ou des erreurs de saisie, on peut utiliser très simplement la loi de
Benford.
Selon cette loi, la fréquence théorique d'apparition du premier chiffre d'un nombre est vérifiable. Par exemple, dans une suite de nombres aléatoires, le « 2 » à trois fois plus de chance d’être le premier chiffre de chaque nombre que le « 7 ».

Révélée en 1938 par le physicien et statisticien américain Frank Benford cette surprenante loi n’a été démontrée mathématiquement qu’en 1996 par Terence Hill malgré une utilisation fréquente par les
experts comptables, statisticiens et contrôleurs du
fisc.
|
Fréquence du premier chiffre C = log10 (1 + 1/C ) |
Selon cette formule, le chiffre 2 apparaît en premier selon une
probabilité de log10(1+1/2),
soit dans 17,61% des cas.
Ainsi, selon Frank Benford, quel que soit le type d’informations traitées, les distributions de fréquences sur des séries de nombres aléatoires restent très voisines d’une échelle logarithmique.
|