Analyse de la variance

Un article de Wikipédia, l'encyclopédie libre.

L'analyse de la variance (terme souvent abrégé par le terme anglais ANOVA : ANalysis Of VAriance) est une technique statistique permettant de comparer les moyennes de deux populations ou plus. Il s'agit aussi de l'équivalent, pour des variables qualitatives, de la régression linéaire.

Sommaire

[modifier] Introduction

L'analyse de la variance n'est pas une méthode qui permet d'étudier les différences de variances entre populations, mais une méthode pour étudier les différences de moyenne entre populations (par exemple, trois populations ont-elles la même moyenne? ou autrement dit, les différences de moyenne entre les trois populations sont-elles significatives ?) Cette méthode, néanmoins, doit son nom au fait qu'elle utilise des mesures de variance afin de déterminer le caractère significatif, ou non, des différences de moyenne mesurées sur les populations.

Il s'agit d'une généralisation à k populations du classique test de comparaison de moyennes de deux échantillons : le célèbre test T.

On parle d'ANOVA à un facteur lorsque les groupes analysés se distinguent par un seul facteur qualitatif: type de sport(par exemple, cyclistes et nageurs), d'ANOVA à deux facteurs si les groupes se distinguent par deux facteurs qualitatifs: type de sport et sexe (par exemple, cycliste/femme, nageur/homme, cycliste/homme, nageur/femme) etc.

Dans les cas simples (ANOVA à un facteur fixe), l'hypothèse nulle H0 est : les moyennes des différents groupes sont égales, i.e.μ1 = μ2 = ... = μk

[modifier] Principe

[modifier] Idée générale

L'idée de l'analyse de la variance repose sur un modèle qu'on se donne a priori des données. On suppose ainsi, par exemple, qu'une variable mesurée Y vérifie une relation linéaire avec un ensemble de p variables explicatives dénotées Xi. La relation est du type suivant :

Y=\mu+\sum_{i=1}^{p}\alpha_{i}X_{i}+\epsilon avec :

  • μ est un paramètre commun à toutes les observations, c’est-à-dire une ordonnée à l'origine (dont on pourra tester éventuellement la nullité plus tard)
  • p est le nombre de variables explicatives au total
  • ε représente la variabilité aléatoire du modèle, non contrôlable. On suppose par ailleurs que ces erreurs sont iid (indépendantes et identiquement distribuées) de loi normale de moyenne 0 et de variance uniforme (hypothèse d'homoscédasticité)

On s'attache ensuite à l'étude de la contribution de ces différents termes à la variance de Y, grâce à une décomposition dite de « l'analyse de la variance ».

Il est important de comprendre que l'ANOVA n'est pas un test permettant de « classer » des moyennes par exemple. Comme on l'a noté précédemment, l'hypothèse nulle H0 revient à dire que toutes les moyennes sont égales. Le but ici est donc beaucoup plus « humble » : il s'agit de comparer des moyennes de différents groupes et de dire si, parmi l'ensemble, au moins une d'entre elles diffère des autres, mais on ne sait ni laquelle ni combien d'entre elles. Déterminer quel groupe a un effet différentiel, c’est-à-dire quel groupe présente une moyenne de la variable étudiée différente des autres, est un problème tout à fait différent. Il peut se poser après une ANOVA et les tests associés sont dits « tests de comparaison multiples », ou MCP pour Multiple Comparison Test. Ces tests obligent en général à augmenter les risques de l'analyse (en terme de risque statistique). Dans la biologie moderne, notamment, des tests MCP permettent de prendre en compte le risque de façon correcte malgré le grand nombre de tests effectués (par exemple pour l'analyse de biopuces). On pourra se reporter notamment aux procédures de Bonferonni et de Sidak.

[modifier] Première approche technique

Nous allons ici réaliser une première décomposition très intuitive. Elle permet cependant de mettre en place tout le schéma de l'analyse de variance. On la présente ici pour une ANOVA à un facteur contrôlé (c’est-à-dire qu'on a un seul groupe discriminant dans lequel « ranger » nos valeurs). Dans la relation linéaire présentée plus haut, cela revient à avoir une seule variable explicative X. On aura donc un modèle du type :
Y = α + βX + ε

Il s'agit en pratique de décomposer la variabilité selon (au moins) deux critères :

  • Variabilité non expliquée, ou résiduelle, entre un terme estimé et la vraie valeur mesurée, qu'on appellera Sr, pour la variance résiduelle, on parle aussi de variance intra-classe. Cette variabilité se retrouve dans le ε du modèle.
  • Variabilité expliquée par le modèle, c’est-à-dire la différence entre l'estimation de moyenne d'une classe et la moyenne totale des observations, qu'on appellera Sa, pour la variance due au facteur A, c'est la variance inter-classe. Cette variabilité se retrouve dans le β du modèle.

À partir de cette définition, on va comparer les espérances des variances Sa et Sr en faisant leur rapport. Il se trouve (comme on peut le voir dans la décomposition mathématique) que les deux termes sont tous les deux une estimation de la variabilité résiduelle si le facteur A n'a pas d'effet. De plus, ces deux termes suivent chacun une loi de khi-deux, leur rapport suit donc une loi de F (voir plus loin pour les degrés de liberté de ces lois). Résumons :

  • Si le facteur A n'a pas d'effet, le rapport de Sa et Sr suit une loi de F et il est possible de vérifier si la valeur du rapport est « étonnante » pour une loi de F
  • Si le facteur A a un effet, le terme Sa n'est plus une estimation de la variabilité résiduelle et le rapport \frac{S_{a}}{S_{r}}ne suit plus une loi de F. On peut comparer la valeur du rapport à la valeur attendue pour une loi de F et voir, là aussi, à quel point le résultat est « étonnant ».

Résumer les choses ainsi permet de clarifier l'idée mais renverse la démarche : on obtient en pratique une valeur du rapport \frac{S_{a}}{S_{r}} qu'on compare à une loi de F, en se donnant un risque α (voir l'article sur les tests et leurs risques). Si la valeur obtenue est trop grande, on en déduit que le rapport ne suit vraisemblablement pas une loi de F et que le facteur A a un effet. On conclue donc à une différence des moyennes.

[modifier] Un exemple concret

Imaginons qu'on mesure par exemple la production journalière de lait de vaches dans une ferme. Les différentes vaches peuvent être classées dans différents groupes suivant leur race. On se pose la question suivante : la production de lait d'une vache dépend-elle de sa race ? Pour répondre à cette question, l'ANOVA est la méthode la plus appropriée (dès lors qu'on a plus de deux races, sinon pour deux races le test de T répondra à cette question).

Le tableau de données qu'on a au départ est de la forme :

Races des vaches
Race 1 Race 2 Race 3
X11 X12 X13
X21 X22 X23
... ... ...
Xi1 Xi2 Xi3

On peut évidemment envisager plus de colonnes à ce tableau, c’est-à-dire plus de races de vaches différentes.

Le facteur A sera donc la race de la vache et on va chercher à vérifier s'il y a des différences de moyenne entre les différents groupes.

Pour résumer le principe de l'ANOVA, on va comparer la variabilité entre :

  • les différents groupes, c'est le terme Sa
  • les vaches au sein d'un même groupe, c'est le terme Sr

De façon intuitive, si on a des différences (de production laitière) entre groupes plus grandes que les différences au sein d'un même groupe, on aura tendance à conclure que la production laitière n'est pas la même dans tous les groupes. À l'inverse, si la production laitière varie autant au sein d'un groupe qu'entre groupes, alors on aura tendance à conclure que les productions de lait sont très différentes selon la vache, mais que le groupe dans lequel se trouve la vache ne semble pas expliquer cette variabilité. L'ANOVA va permettre, au delà de cette intuition, de fixer la limite (en fonction d'un risque choisi) à partir de laquelle on considère l'effet des groupes comme significatif.

[modifier] Décomposition mathématique

Commençons par quelques notations classiques :

On note :

       yij le score obtenu par la je vache de la ième race
       yi. la moyenne des vaches de la ie race
       y.. la moyenne générale de toutes les vaches.

La variance totale, encore appelée carré moyen total dans le langage de l'analyse de variance, est calculée à partir de la somme des carrés des écarts entre le score de chaque vache et leur moyenne générale. Nous notons cet écart total eT, il s'exprime ainsi :

       eT = yijy..

Intercalons la moyenne du groupe dans cet écart total. Nous obtenons la somme de deux écarts : l'écart entre le score de chaque vache et la moyenne de sa race (écart "intra") et l'écart entre la moyenne de la race i et la moyenne générale (écart "inter"):

       eT = (yijyi.) + (yi.y..)

Nous allons élever l'écart total au carré et le sommer sur l'ensemble des observations. Nous supposons qu'il y a m groupes de n vaches (mais il est également possible d'appliquer cette décomposition pour des groupes de tailles différentes) :

        \sum_{i=1}^{m} \sum_{j=1}^{n} e_{T}^{2} = \sum_{i=1}^{m} \sum_{j=1}^{n}(y_{ij} - y_{i.})^{2}  +  \sum_{i=1}^{m} n(y_{i.} - y_{..})^{2} +2\sum_{i=1}^{m} \sum_{j=1}^{n}(y_{ij} - y_{i.})(y_{i.} - y_{..})

On peut montrer aisément que le terme de droite, issu des doubles produits, est nul par construction. En effet :

        \sum_{i=1}^{m} \sum_{j=1}^{n}(y_{ij} - y_{i.})(y_{i.} - y_{..})=\sum_{i=1}^{m} y_{i.}\sum_{j=1}^{n}(y_{ij} - y_{i.}) - my_{..}\sum_{j=1}^{n}(y_{ij} - y_{i.})=0

On fait apparaître les sommes des écarts aux moyennes de chaque race, nuls par définition même de la moyenne. On obtient donc :

        \sum_{i=1}^{m} \sum_{j=1}^{n} e_{T}^{2} = \sum_{i=1}^{m} \sum_{j=1}^{n}(y_{ij} - y_{..})^{2}=\sum_{i=1}^{m} \sum_{j=1}^{n}(y_{ij} - y_{i.})^{2}  +  \sum_{i=1}^{m} n(y_{i.} - y_{..})^{2} 

En notant SCET la somme des carrés des écarts totale, SCEB (comme between) la somme des carrés des écarts inter-race et SCEW (comme within) la somme des carrés des écarts intra-race, on obtient plus simplement :

       SCET = SCEW + SCEB

C'est-à-dire que la somme des carrés des écarts totale se décompose exactement en une somme de carrés d'écarts inter (en anglais between) ou encore factorielle, et une somme de carrés d'écarts intra (en anglais within) ou encore résiduelle. Notons bien que ce n'est pas la variance à proprement parler qui est décomposée. On obtiendra les différentes variances, ou carrés moyens, en divisant les sommes de carrés d'écart par leurs degrés de liberté.

En effet, aux sommes de carrés d'écart, on associe les degrés de liberté suivants :

  • Totale : nm − 1
  • Inter  : m − 1
  • Intra  : m(n − 1)

Et l'on vérifie que m − 1 + m(n − 1) = nm − 1. Les degrés de liberté se décomposent de manière additive comme les sommes de carrés d'écart. Pour les amateurs de géométrie vectorielle, la décomposition des degrés de liberté correspond à la décomposition d'un espace vectoriel de dimension nm en sous espaces supplémentaires et orthogonaux de dimensions respectives m − 1 et m(n − 1). Voir par exemple le cours dispensé par Toulouse III : [1] pages 8 et 9. On peut se reporter aussi au livre classique de Scheffé (1959) On obtient alors les carrés moyens (mean squares) ou variances par les formules suivantes :

  • CM_{T}=\frac{SCE_{T}}{nm-1}
  • CM_{B}=\frac{SCE_{B}}{m-1}
  • CM_{W}=\frac{SCE_{W}}{m(n-1)}

CMB est l'estimateur SA présenté au paragraphe précédent (première approche technique) et CMW l'estimateur SB. On en déduit le F de Fisher, dont la distribution est connue et tabulée sous les hypothèses suivantes :

  • Les résidus ε sont distribués normalement
  • Avec une espérance nulle
  • Avec une variance σ2 indépendante de la catégorie i
  • Avec une covariance nulle deux à deux (indépendance)

Le respect de ces hypothèses assure la validité du test d'analyse de variance. On les vérifie a posteriori par diverses méthodes (tests de normalité, examen visuel de l'histogramme des résidus, examen du graphique des résidus en fonction des estimées) voir condition d'utilisation ci-dessous.

[modifier] Mise en pratique

Prenons un exemple numérique : on a examiné la production laitière journalière de 5 vaches de 3 races

Reference Test 1 Test 2
Patient 1 19.6 28.7 34.8
Patient 2 19.4 28.4 32.9
Patient 3 21.9 28.5 35.3
Patient 4 21.2 31.7 31.8
Patient 5 23.6 31.0 35.7

Le tableau d'analyse de la variance se présente ainsi :

Source de variation SCE (SSq) dl (df) CM (MS) F p Signif.
Totale (Total) 466.31 14 33.307
Inter (Factor / Between) 433.51 2 216.75 79.39 1.212e-07 ***
Intra (Error / Within) 32.80 12 2.73

Commentaire : Les calculs de sommes carrés d'écart (SCE, en anglais SSq = Sum of Squares) et les degrés de liberté (dl, en anglais df = degrees of freedom) correspondent aux formules donnée au paragraphe ci-dessus (Décomposition mathématique). m = 3, n = 5, nm = 15 ; les degrés de liberté de la variation totale sont donc 15-1=14, ceux de la variation inter 3-1=2, ceux de la variation intra ou résiduelle 3(5-1)=12. On vérifie que 12+2=14 et que 433.51 + 32.80 = 466.31. Les carrés moyens (CM, en anglais MS = Mean Squares) ou variances s'obtiennent en divisant la colonne 2 (SCE) par la colonne 3 (dl). Enfin, le critère de test F s'obtient en divisant 216.75 par 2.73 ce qui donne 79.39. La probabilité sous H0 (les trois échantillons proviennent de la même population) d'obtenir un F encore plus grand est égale à 1.212e-07. On conclura donc que les trois races de vache produisent des lactations moyennes statistiquement différentes. La dernière colonne indique le niveau de significativité de ce résultat. Les codes habituels sont un point lorsque p < 0.1, une astérisque lorsque p < 0.05, deux astérisques lorsque p < 0.01 et trois astérisques (cas présent) lorsque p < 0.001.

[modifier] Condition d'utilisation

La décomposition de l'analyse de la variance est toujours valable, quelle que soit la distribution des variables étudiées. Cependant, lorsqu'on réalise le test final (de F), on admet la normalité de ces distributions (puisque le F est le rapport de deux khi-deux, qui sont des sommes de carrés de lois normales). L'ANOVA fait donc l'hypothèse de normalité. Elle est cependant assez robuste à la non normalité, ce qui permet de l'utiliser dans une grande variété de conditions.

A l'opposé, l'ANOVA fait une autre hypothèse très forte et moins évidente. Il est en effet nécessaire que la variance dans les différents groupes soit la même. C'est l'hypothèse d'homoscedasticité. L'ANOVA y est très sensible. Il est donc nécessaire de la tester avant toute utilisation.

[modifier] Équivalent non-paramétrique

L'ANOVA est un test paramétrique qui "suppose la normalité", c'est-à-dire qui suppose la normalité des distributions de la variable étudiée (par exemple, les productions de lait suivent en général une loi normale). Lorsqu'on doute de cette hypothèse (bien qu'elle soit rarement testée lors de la mise en pratique de l'ANOVA), il peut être plus judicieux d'utiliser l'équivalent non-paramétrique de l'ANOVA à un facteur : le test de Kruskal Wallis, qui est lui-même une extension du test non paramétrique de Wilcoxon Mann Whitney (du nom de ses trois auteurs). Ce test utilise des données du même type, mais se limite au cas "un facteur". Pour le cas à deux facteurs sans répétition, on peut envisager d'utiliser le test de Friedman.