Distance de Levenshtein

Infos
La distance de Levenshtein (LD) mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer, ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir Levenshtein qui l'a définie en 1965. Elle est aussi connue sous le nom de distance d'édition ou encore de déformation dynamique temporelle,
Distance de Levenshtein

La distance de Levenshtein (LD) mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer, ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir Levenshtein qui l'a définie en 1965. Elle est aussi connue sous le nom de distance d'édition ou encore de déformation dynamique temporelle, notamment en reconnaissance de la parole. Cette distance est d'autant plus grande que le nombre de différences entre les deux chaînes est grand. La distance de Levenshtein peut être considérée comme une généralisation de la distance de Hamming. On peut montrer en particulier que la distance de Hamming est un majorant de la distance de Levenshtein.

Définition

On appelle distance de Levenshtein entre deux mots a et b le coût minimal pour aller de a à b en effectuant les opérations élémentaires suivantes:
- substitution d'un caractère de a en un caractère de b.
- ajout dans a d'un caractère de b.
- suppression d'un caractère de a. On associe ainsi à chacune de ces opérations un coût. Par exemple, dans les exemples suivants, le coût est toujours égal à 1, sauf dans le cas d'une substitution de caractères identiques.

Exemples

Si s = « examen » et t = « examen », alors LD (s, t) = 0, parce qu'aucune opération n'a été réalisée. Si s = « examen » et t = « examan », alors LD (s, t) = 1, parce qu’il y a eu un remplacement (changement du e en a).

Algorithme de Levenshtein

L'algorithme ci-dessous permet de calculer la distance de Levenshtein entre deux chaines de caractères courtes. Pour des chaînes de caractères plus longues (plusieurs mots) il faut utiliser les algorithmes de Jaccard ou TF/IDF par exemple. L'algorithme de Levenshtein est un algorithme de programmation dynamique (solution de type du bas en haut), qui utilise une matrice de dimension (n + 1) × (m + 1) où n et m sont les dimensions des deux chaînes de caractères. Dans le pseudo-code suivant, la chaîne chaine1 est de longueur longueurChaine1 et chaine2, de longueur longueurChaine2. Cet algorithme renvoie un entier positif ou nul. Il renvoie 0 si les chaînes 1 et 2 sont égales. Si les chaînes 1 et 2 sont très différentes, la fonction renverra au maximum la plus grande longueur des deux chaînes. entier DistanceDeLevenshtein(caractere chaine1, caractere chaine2) // d est un tableau de longueurChaine1+1 rangées et longueurChaine2+1 colonnes declarer entier d // i et j itèrent sur chaine1 et chaine2 declarer entier i, j, coût pour i de 0 à longueurChaine1 d := i pour j de 0 à longueurChaine2 d := j pour i de 1 à longueurChaine1 pour j de 1 à longueurChaine2 si chaine1 = chaine2 alors coût := 0 sinon coût := 1 d := minimum( d + 1, // effacement d + 1, // insertion d + coût // substitution ) retourner d L'invariant est qu'on peut conserver le segment initial chaine1 en chaine2 en utilisant un nombre minimal de d opérations. L'algorithme achevé, la solution est contenue dans la dernière position à droite de la rangée du bas de la matrice.

Améliorations possibles

L'algorithme présenté a une complexité temporelle et spatiale de (m+1)\times(n+1). En effet, il faut stocker et remplir la matrice en mémoire. Cependant, il est possible d'effectuer le calcul en ne gardant qu'une ligne et qu'une colonne en mémoire, ce qui réduit grandement la quantité de mémoire utilisée à O(m). D'autre part, il est aussi possible d'expliciter la suite d'opérations réellement effectuée par l'algorithme en utilisant une deuxième matrice où l'on stocke pour chaque opération, l'opération parente. Une fois le calcul effectué, on peut reconstruire la chaîne en suivant cette matrice depuis sa fin. Ce processus permet par exemple d'apparier les caractères de a avec ceux de b.

Implémentations

Plusieurs implémentations sont disponibles : Levenshtein distance.

Exemple de déroulement de l'algorithme

Pour comprendre le fonctionnement de cet algorithme, prenons un exemple: Soit s= « NICHE » Soit t= « CHIENS »

Intuitivement

Intuitivement, on voit bien que l'on peut transformer la chaîne s en t en 5 étapes:
- Suppression de N et I
- Ajout de I, N et S -> CHIENS La distance de Levenshtein d entre "NICHE" et "CHIENS" est donc de 5 (l'algorithme de la distance de Levenshtein ne s'occupe pas de déplacement, il ne sait détecter que la suppression ou l'insertion d'une lettre, ainsi que le remplacement d'une lettre par une autre).

Fonctionnement

Soit n la longueur de la chaîne s (ici n=5) Soit m la longueur de la chaîne t (ici m=6) Si n=0 alors retourner d=m et quitter Si m=0 alors retourner d=n et quitter Construire une matrice M de n+1 lignes et m+1 colonnes. Initialiser de la première ligne par la matrice ligne et la première colonne par la matrice colonne Soit Cout(i, j)=0 si A(i)=B(j) et Cout(i, j)=1 si A(i)!=B(j) On a donc ici la matrice Cout: On remplit ensuite la matrice M en utilisant la règle suivante  M est égale au minimum de:
- L’élément directement avant plus 1: M + 1.
- L’élément directement au dessus plus 1: M + 1.
- Le diagonal précédent plus le coût: M + Cout(i, j). Dans notre cas, le remplissage de la première ligne donne alors: Nous réitérons cette opération jusqu'à remplir la matrice: La distance de Levenshtein entre les mots s et t se retrouve en M. Ici, on retrouve bien les 5 opérations trouvées de manière intuitive, la dernière matrice fournit aussi explicitement les opérations nécessaires pour passer d'une chaîne de caractères à l'autre.

Généralisation

En remplaçant chaîne de caractères par séquence de symboles, les symboles étant comparables par un opérateur d'égalité, on peut définir une distance d'édition fonctionnant sur d'autres types que des chaînes de caractères.

Voir aussi

- Distance de Hamming
- diff
- Implémentation en plusieurs langages de programmation
- Jaro
- Jaro-Winkler
- Jaccard
- TF/IDF
- Sam Chapman
- William W. Cohen Catégorie:Algorithme sur les chaînes de caractères Catégorie:Théorie des codes af:Levenshteinafstand de:Levenshtein-Distanz en:Levenshtein distance es:Distancia de Levenshtein fi:Levenšteinin etäisyys it:Distanza di Levenshtein ja:レーベンシュタイン距離 lv:Levenšteina attālums nl:Levenshteinafstand nn:Levenshtein-distanse pl:Odległość Levenshteina pt:Distância Levenshtein ru:Расстояние Левенштейна sr:Левенштајново растојање tg:Масофаи Левенштейн uk:Відстань Левенштейна zh:編輯距離
Sujets connexes
Algorithmique   Chaîne de caractères   Diff   Distance de Hamming   Invariant   Majorant   Mesure (mathématiques)   Programmation dynamique   Pseudo-code   Reconnaissance vocale   Vladimir Levenshtein  
#
Accident de Beaune   Amélie Mauresmo   Anisocytose   C3H6O   CA Paris   Carole Richert   Catherinettes   Chaleur massique   Championnat de Tunisie de football D2   Classement mondial des entreprises leader par secteur   Col du Bonhomme (Vosges)   De viris illustribus (Lhomond)   Dolcett   EGP  
^