19

Symétrie de la distribution

Si la distribution est symétriquement répartie, la moyenne, la médiane et le mode ont des valeurs égales. L’asymétrie d’une distribution est indiquée par le coefficient d’asymétrie, qui indique l’asymétrie de la distribution par rapport à sa moyenne. Une valeur nulle ou approximativement nulle de ce coefficient indique une symétrie de la distribution par rapport à la moyenne. Une valeur positive indique une queue de distribution étalée vers la droite (valeurs plus élevées que la moyenne) et une valeur négative indique une queue de distribution étalée vers la gauche (valeurs plus basses que la moyenne).

Il existe plusieurs manières de calculer le coefficient d’asymétrie qui pourraient faire l’objet d’un sujet à part entière. Par exemple, le coefficient d’asymétrie de Fisher, surnommé « Gamma un »,  permet de comparer des distributions même si leurs échelles diffèrent. Lorsque l’étalement est à gauche (moyenne en principe inférieure à la médiane), alors le coefficient d’asymétrie est négatif et vice versa. On trouve, aussi, les deux coefficients d’asymétrie de Pearson, dont l’un est le carré du coefficient de Fisher (donc toujours positif) et l’autre est la différence entre la moyenne et le mode, divisée par l’écart-type. Il y a également le coefficient d’asymétrie de Yule et Kendall (ou de Bowley), pour lequel on utilise les quartiles pour le calculer…

Mesure de dispersion

Les indicateurs de tendance centrale ne suffisent pas à décrire convenablement les observations. Il convient de s’intéresser à la manière dont sont réparties les observations autour de la tendance centrale, c’est à dire à la dispersion. Les différents calculs de dispersion permettent de s’intéresser à la représentativité de la moyenne pour les caractères quantitatifs. Une analyse statistique doit donc toujours comporter au moins deux paramètres :  une valeur centrale et un paramètre de dispersion. On ne peut, toutefois, pas combiner des valeurs centrales et des paramètres de dispersion de n’importe quelle manière. Il existe des associations privilégiées :

  • La moyenne peut-être accompagnée soit de l’écart-type, soit de de l’écart absolu moyen
  • La médiane peut-être accompagnée soit de l’écart absolu médian, soit de l’intervalle interquartile, voire même de l’intervalle interdécile
  • Le mode, qui n’a d’utilité que dans le cas des distributions multimodales, peut être accompagné de l’étendue

On distingue les paramètres de dispersion absolue (mesurée dans l’unité de mesure du caractère) et les paramètres de dispersion relative (mesurée par un nombre sans dimension). Les quatre paramètres de dispersion absolue les plus courants sont : l’étendue, l’intervalle interquartiles, l’écart absolu moyen et l’écart type.

L’étendue se calcule par la différence entre la plus grande et la plus petite valeur : [latex]Etendue \; de \; X = X_{max} - X_{min}[/latex]. L’inconvénient de l’étendue est qu’elle dépend uniquement des deux valeurs les plus extrêmes de la distribution et qu’elle indique donc la différence maximum entre deux valeurs, mais pas la différence typique.

Pour remédier aux inconvénients de l’étendue, on utilise la méthode des quantiles, qui consiste retirer les valeurs les plus extrêmes et calculer l’intervalle des valeurs restantes . On appelle quantiles, les bornes d’une partition en classes d’effectifs égaux. L’intervalle interquartile [latex]Q3 - Q1[/latex] est un paramètre de dispersion absolue qui correspond à l’étendue de la distribution une fois que l’on a retiré les 25% des valeurs les plus faibles et les 25% des valeurs les plus fortes, et donc 50% des observations restent concentrées entre [latex]Q1[/latex] et [latex]Q3[/latex].

L’écart absolu moyen est la moyenne de la valeur absolue des écarts à la moyenne, c’est à dire la distance moyenne à la moyenne : [latex]\frac{1}{N} \sum\limits_{i=1}^{N} \left|X_i - \bar{X} \right|[/latex]. Bien qu’il soit moins utilisé, on peut calculer de la même manière l’écart absolu médian qui est la moyenne des écarts à la médiane : [latex]\frac{1}{N} \sum\limits_{i=1}^{N} \left|X_i - Md \right|[/latex]. L’intérêt de ces deux valeurs centrales est d’être faciles à calculer et simples à interpréter, mais c’est pourtant plutôt l’écart-type qui est le plus utilisé, alors qu’il est moins évident à interpréter.

L’écart-type est la racine carrée de la variance, elle-même définie comme la moyenne du carré des écarts à la moyenne. La variance n’est pas vraiment un paramètre de dispersion absolue, mais plutôt une mesure globale de la variation d’un caractère, c’est-à-dire de la quantité moyenne d’information contenue dans les différentes valeurs de ce caractère : [latex]\left( \sigma_X \right)^2 = \frac{1}{N} \sum\limits_{i=1}^{N} \left(X_i - \bar{X} \right)^2[/latex]. L’écart-type est le paramètre de dispersion absolue le plus utilisé en statistique : [latex]\sigma_X = \sqrt{ \frac{1}{N} \sum\limits_{i=1}^{N} \left(X_i - \bar{X} \right)^2}[/latex]. Sa signification est cependant loin d’être triviale et son utilisation n’est pleinement justifiée que dans le cas où la distribution des valeurs est de forme gaussienne ou au moins symétrique et unimodale. En effet, dans ce cas, l’écart-type peut prendre une signification probabiliste et servir à définir des intervalles de confiance autour de la moyenne.

Les paramètres de dispersion absolue permettent de comparer l’écart à leur valeur centrale de deux distributions dont les valeurs centrales sont identiques et dont l’unité de mesure est la même. Pour une dispersion de deux distributions qui ont des unités de mesure ou des ordres de grandeur différent, il convient d’utiliser les paramètres de dispersion relative.

Un paramètre de dispersion relative, souvent noté en pourcentage, est une mesure de l’écart relatif des valeurs d’une distribution à une valeur centrale. Il en existe plusieurs, mais on peut proposer, par exemple, le coefficient de variation qui se calcule comme le ratio de l’écart-type rapporté à la moyenne, et qui s’exprime en pourcentage : [latex]Cv = \sigma / \bar{X}[/latex]. Il permet de comparer le degré de variation d’un échantillon à un autre, même si les moyennes sont différentes.

 

Licence

Partagez ce livre