Similarité cosinus

Un article de Wikipédia, l'encyclopédie libre.

La similarité cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant l'angle entre eux. Cette métrique est fréquemment utilisée en fouille de textes.

Soit deux vecteurs A et B, l'angle θ s'obtient par le produit scalaire et la norme des vecteurs :

 \theta = \arccos \frac{A \cdot B}{\|A\|\cdot\|B\|}.

Pour la similarité entre des séquences de texte, les vecteurs sont généralement issus d'un calcul de type TF-IDF (term frequency–inverse document frequency) qui permet d'estimer l'importance d'un mot par rapport au texte complet.

Comme l'angle θ est compris dans l'intervalle [0,π], la valeur π indiquera des vecteurs résolument opposés, π / 2 des vecteurs indépendants (orthogonaux) et 0 des vecteurs colinéaires. Les valeurs intermédiaires permettent d'évaluer le degré de similarité.

[modifier] Indice de Tanimoto

L'indice de Tanimoto reprend cette idée dans le cas des attributs binaires. Il se définit comme suit :

 T(A,B) = \frac{A \cdot B}{\|A\|^2 +\|B\|^2 - A \cdot B}.

[modifier] Voir aussi