Taux d'erreur de mots

Un article de Wikipédia, l'encyclopédie libre.

Pour les articles homonymes, voir WER.

Le taux d'erreur de mots, ou word error rate (WER) en anglais, est une unité de mesure classique pour mesurer les performances d'un système de reconnaissance vocale.

Le WER est dérivé de la distance de Levenshtein, en travaillant au niveau des mots au lieu des caractères. Il indique le taux de mots incorrectement reconnus par rapport à un texte de référence. Au plus le taux est faible (minimum 0.0) au plus la reconnaissance est bonne. Le taux maximum n'est pas borné et peut dépasser 1.0 en cas de très mauvaise reconnaissance s'il y a beaucoup d'insertions.

Après avoir aligné de manière optimale la référence avec le texte reconnu grâce à un algorithme de programmation dynamique, le taux d'erreur de mots est donné par:

$WER = \frac{S+D+I}{N}$

Néanmoins, il est fréquent de rapporter plutôt le taux de reconnaissance de mots, ou word recognition rate (WRR) en anglais, et souvent en pourcentage. Il indique le taux de mots corrects par rapport à un texte de référence. Au plus le taux est élevé, au plus la reconnaissance est de bonne qualité (maximum 100%). Le taux minimum n'est pas borné et peut être négatif.

$WRR = 1 - WER = \frac{N-S-D-I}{N} = \frac{H-I}{N}$