Quel bonheur (tout est relatif) ! J’ai trouvé la clef qui va me permettre d’évaluer la probabilité de doublons dans les identifiants que nous utilisons pour nos annuaires… La clef, c’est le terme d' »isonymie ». Ce terme désigne le concept de doublon de patronyme et permet d’évaluer la probabilité que dans un ensemble donné d’individu (un annuaire), il existe deux personnes physiques ayant le même nom de famille. Je cherchais comment évaluer cette probabilité, et c’est en cherchant « patronymes probabilité » sur Google que j’ai trouvé le terme académique : « ISONYMIE ». L’étude de l’isonymie à travers les différentes régions du monde permet d’évaluer cette probabilité de doublons. Pour en dire plus sur l’utilité de la chose : cela permet d’évaluer le risque de doublon d’identifiant calculé à partir des données signalétiques d’un individu. « C’est-à-dire ? » me demandez-vous …
Allez, je vous dis tout : dans un (gros) annuaire de personnes, plutôt que d’attribuer des noms d’utilisateurs sur une concaténation de morceaux du prénom et du nom (jchirac, jacquesc), ou bien afin de créer un matricule dont l’unicité est garantie (même si elle n’est pas absolue), il est souhaitable d’utiliser un algorithme de hashage que l’on applique à certaines informations signalétiques intangibles de l’individu (avec toutes les mesures de protection de la vie privée que cela impose) : prénom et nom (d’état civil, de naissance et sous forme translitérée) et date de naissance. La probabilité de collision de matricule et donc de nom de connexion est calculable à partir des taux d’isonymie observés dans le monde et à partir de la probabilité de collision générée par l’algorithme de hachage (elle-même calculée par le théroème des anniversaires). Il me manquait la première de ces données car j’ignorais le terme d’isonymie et nous n’arrivions pas à trouver des données statistiques sur les probabilités de doublons de patronymes. Maintenant que l’on a tout ça, ya plus qu’à !
La région la plus isonyme de France est l’Auvergne (avec une isonymie de 0,2 %) et la moins isonyme est l’Ile-de-France avec une isonymie de 0,03%). Plus de données brutes sur l’isonymie par ici.