Paramètres statistiques de variabilité

Tempo di lettura

En statistiques, un indicateur de dispersion évalue la variabilité des valeurs dans un ensemble de données. Il est toujours un nombre positif, et sa valeur augmente à mesure que les données sont plus écartées les unes des autres. Les mesures de dispersion couramment utilisées incluent la variance, l’écart-type, la dispersion, l’étendue et l’écart interquartile.

L’étendue :

L’étendue en statistiques est la mesure la plus intuitive de la variabilité des données dans un ensemble. En statistiques, elle est souvent symbolisée par la lettre R. Elle représente la différence entre la valeur maximale et la valeur minimale dans cet ensemble de données. En d’autres termes, l’étendue indique la portée totale des valeurs observées.

Pour calculer l’étendue d’un ensemble de données, suivez ces étapes :

Trouvez la valeur maximale (𝑋𝑚𝑎𝑥Xmax) dans l’ensemble de données.
Trouvez la valeur minimale (𝑋𝑚𝑖𝑛Xmin) dans l’ensemble de données.
Calculer l’étendue 𝑅=𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛R=Xmax−Xmin

Cependant, l’étendue peut être influencée de manière significative par les valeurs extrêmes (ou valeurs aberrantes), ce qui peut parfois biaiser son interprétation. C’est pourquoi d’autres mesures de dispersion, telles que l’écart interquartile ou l’écart-type, sont souvent utilisées en conjonction avec l’étendue pour obtenir une image plus précise de la variation des données.

L’écart interquartile

L’écart interquartile est une mesure de dispersion en statistiques. Il représente la différence entre le troisième quartile (𝑄3) et le premier quartile (𝑄1) d’un ensemble de données trié de manière croissante. Les quartiles divisent les données en quatre parties égales, chacune représentant 25% des observations. La boite à moustache ci-dessous illustre les positions de 𝑄3 et 𝑄1.

Pour calculer l’écart interquartile :

01.	Trouvez le premier quartile (𝑄1Q1) : C’est la valeur qui sépare les 25% des données les plus basses.
02.	Trouvez le troisième quartile (𝑄3Q3) : C’est la valeur qui sépare les 25% des données les plus élevées.
03.	Calculer l’étendue E=𝑄3−𝑄1=Q3−Q1

Une grande valeur d’écart interquartile indique que la médiane (la valeur au milieu de l’ensemble de données trié) est entourée de valeurs très dispersées, tandis qu’une faible valeur d’écart interquartile indique que les valeurs autour de la médiane sont regroupées de manière plus étroite. L’écart interquartile est donc moins sensible aux valeurs extrêmes que l’étendue, en fournissant une meilleure indication de la dispersion du cœur des données.

La variance :

En statistiques, la variance est une mesure de dispersion qui quantifie l’écart entre chaque valeur individuelle d’un ensemble de données et la moyenne de cet ensemble. Elle indique dans quelle mesure les valeurs de l’ensemble sont dispersées autour de la moyenne. Une variance élevée signifie que les valeurs sont très dispersées, tandis qu’une variance faible indique que les valeurs sont regroupées plus étroitement autour de la moyenne.

L’équation pour calculer la variance d’un ensemble de données est la suivante :

Si 𝑥1, 𝑥2, 𝑥3,… ,𝑥𝑁x1, x2, x3,… ,xN sont les valeurs individuelles d’une population, et µ est la moyenne de la population, alors la variance de la population 𝑉𝑎𝑟(𝑋)=𝜎2 est calculée comme suit :

$\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N}$

Avec :
N : la taille de la population

µ : la moyenne de population

xi : la ième valeur de la population

Dans le cas d’une distribution de probabilité continue, la variance (σ²) peut également être calculée en utilisant la formule :

𝜎2=∫(𝑥−𝜇)2∗𝑓(𝑥)∗𝑑𝑥𝜎2=∫x−𝜇2∗fx∗dx

Avec :

x : représente la variable aléatoire,

μ : est la moyenne de la distribution,

f(x) : est la fonction de densité de probabilité de la distribution, et l’intégration se fait sur l’ensemble de l’espace des valeurs possibles de la variable aléatoire.

Mais comme en réalité, on dispose dans la plupart des cas, d’une série de valeurs de taille « n » (un échantillon), et que souvent la moyenne de population est inconnue. On calcule donc une approximation de la variance. Cette dernière est souvent symbolisée par le terme S² . La formule de calcul utilisée est la suivante :

𝑆2=∑𝑁1(𝑥𝑖−𝑥−)²𝑛−1S2=∑1N(xi−x-)²n−1

Avec :

n : la taille de l’échantillon

𝑥: la moyenne de l’échantillon

xi : la ième valeur de l’échantillon

Pourquoi diviser par n-1 quand il s’agit d’un échantillon ?

Cette correction est appelée la correction de Bessel. La raison de cette correction est de compenser le biais potentiel dans l’estimation de la variance à partir de l’échantillon. En divisant par n-1, nous avons une estimation non biaisée de la variance de la population. Cette correction est particulièrement importante dans des échantillons de petite taille, où l’estimation de la variance basée sur n tend à sous-estimer la véritable variabilité dans la population.

Pourquoi la variance n’est pas très utilisée pour l’interprétation de la variabilité ?

La variance est une mesure importante de la dispersion des données, mais elle a tendance à être moins utilisée que l’écart-type pour plusieurs raisons pratiques et interprétatives :

Tout d’abord, la variance est en unités au carré des données originales, ce qui la rend difficile à interpréter directement. (si les données individuelles sont en mètre la variance sera en mètre carré)

De plus, la variance est sensible aux valeurs extrêmes, car elle implique des carrés des écarts par rapport à la moyenne, ce qui peut biaiser sa représentation de la dispersion générale, surtout en présence de valeurs aberrantes.

Bien que la variance soit fondamentale sur le plan statistique, l’écart-type est préféré en raison de sa facilité d’interprétation et de sa capacité à offrir une mesure plus précise de la dispersion des données.

L’écart-type :

L’écart-type de la distribution est une caractéristique de la dispersion de cette distribution dans l’espace des nombres réels. Plus l’écart-type est grand plus la dispersion est large. Pour calculer l’écart-type, il suffit de calculer la racine carrée de la variance :

$S=\sqrt{\frac{\sum_{1}^{N}(xi-x)^{2}}{n-1}}$

n : la taille de l’échantillon
𝑥: la moyenne de l’échantillon
xi : la ième valeur de l’échantillon

Une image contenant diagramme, Tracé, capture d’écran, texteDescription générée automatiquement

Dispersion

L’écart-type est une bonne caractéristique de la loi normale sur le plan mathématique, mais il n’a pas vraiment d’équivalent intuitif. On préfère donc utiliser le terme de dispersion qui correspond à :

Dispersion = largeur de l’intervalle de valeur dans lequel on observe 99.73% des valeurs.

Dans le cas d’une loi normale, la dispersion se calcule simplement :

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛=6∗𝜎

La notion de dispersion est beaucoup plus intuitive que l’écart-type, prenons l’exemple des données suivantes. Il s’agit d’une observation de 1000 données de distribution normale, de moyenne 0 et d’écart type 1.

Si l’on souhaite caractériser intuitivement la dispersion de ces valeurs, nous serions plutôt tentés de dire que la dispersion des valeurs est aux alentours de 6 car les valeurs observées sont contenues entre -3 et +3.

Notre définition intuitive de la dispersion correspond en fait à l’étendue d’un échantillon (Etendu = Max – Min). Toutefois, utiliser l’étendue comme une caractéristique d’une distribution n’a pas de sens statistique. En effet, la loi normale varie de −∞ à +∞ , l’étendue de cette loi serait donc ∞.

La dispersion correspond à la définition intuitive de la variabilité tout en ayant un sens statistique, Il s’agit de l’intervalle dans lequel nous allons observer pratiquement l’ensemble des valeurs, c’est à dire 99,73% des valeurs.