Les paramètres statistiques de position sont des mesures utilisées en statistiques pour localiser ou situer la position centrale ou typique des données dans un ensemble de valeurs. Les principaux paramètres statistiques de position comprennent :
- Moyenne : La moyenne est la somme de toutes les valeurs, divisée par le nombre total de valeurs. Elle est sensible aux valeurs aberrantes car elle utilise toutes les données pour être calculée.
- Médiane : La médiane est la valeur qui divise l’ensemble de données en deux parties égales lorsqu’elles sont classées par ordre croissant. Elle est moins sensible aux valeurs aberrantes que la moyenne.
- Mode : Le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données. Il peut y avoir un mode (distribution unimodale) ou plusieurs modes (distribution multimodale).
Ces trois paramètres donnent des indications différentes sur la position centrale des données et sont utilisés pour comprendre la tendance centrale d’un ensemble de valeurs.
La moyenne :
Également appelée la moyenne arithmétique, est un concept fondamental en statistiques et en mathématiques. Elle représente la position de la distribution dans l’espace des nombres réels. Dans les statistiques, on symbolise souvent la moyenne de la population par la lettre grecque (𝜇), tandis que celle d’un échantillon par la lettre X.
Le calcul exact de la moyenne d’une distribution d’équation est donné par :
\mu=\oint_{}^{}x<em>f (x)</em>dx
En réalité, on ne connait que très rarement l’équation de la distribution, mais on dispose d’une série de valeurs Xn. On calcule donc une approximation X de la moyenne 𝜇 en calculant :
X = \sum_{1}^{n}\frac{xi}{n}=\frac{\text{somme des valeurs}}{\text{nombre total des valeurs}}
- 𝑥𝑖: ième valeur de la série de valeurs
- n : nombre de valeurs mesurées
La valeur de la moyenne représente une valeur centrale qui est utilisée pour caractériser l’ensemble de données. Elle est sensible aux valeurs extrêmes, ce qui signifie qu’une seule valeur très grande ou très petite peut influencer considérablement la moyenne.
Exemple : Supposons que vous ayez les suivants nombres : 9, 9, 10, 11 et 11. La moyenne de cet échantillon X :
X =\frac{\text{somme des valeurs}}{\text{nombre total des valeurs}} = \frac{9+9+10+11+11}{5}
X = \frac{50}{5} = 10
La médiane :
La médiane est une mesure de tendance centrale utilisée en statistiques. En statistiques, elle est souvent symbolisée par la lettre 𝜂. Contrairement à la moyenne, qui est calculée en ajoutant toutes les valeurs d’un ensemble de données et en les divisant par le nombre total de valeurs n, la médiane est la valeur du milieu de l’ensemble de données lorsqu’il est trié dans l’ordre croissant ou décroissant.
Pour trouver la médiane d’un ensemble de données :
- Triez les valeurs de l’ensemble de données par ordre croissant ou décroissant.
- Si l’ensemble de données a un nombre impair de valeurs, la médiane est la valeur exactement au milieu de la série triée.
- Si l’ensemble de données a un nombre pair de valeurs, la médiane est la moyenne des deux valeurs du milieu de la série triée.
Exemple cas n=impaire : Considérons l’ensemble de données suivant : 2, 4, 7, 1, 9, 3, 5.
- Triez les valeurs par ordre croissant : 1, 2, 3, 4, 5, 7, 9.
- Comme cet ensemble de données a un nombre impair de valeurs (7 valeurs), la médiane est la valeur située au milieu de la série triée, c’est-à-dire la quatrième valeur, qui est 4.
Exemple Cas n= paire : Dans un autre exemple avec un ensemble de données pair, par exemple : 2, 4, 6, 8, 10, 12 :
- Triez les valeurs par ordre croissant : 2, 4, 6, 8, 10, 12.
- Comme cet ensemble de données a un nombre pair de valeurs (6 valeurs), la médiane est la moyenne des deux valeurs du milieu, c’est-à-dire (6 + 8) / 2 = 7.
Particularité de la médiane :
Lorsque la distribution des données n’est pas symétrique (par exemple la distribution des salaires en France), utiliser la moyenne n’aura que peu d’intérêt car celle-ci est fortement tirée du coté où la queue de la distribution s’allonge. (si on rajoute 10 milliardaires en france, la moyenne risque d’augmenter). Cependant, si on prend la médiane, elle sera faiblement impactée voire pas bouger pour une population très importante (30,1 millions actifs en France).
Utilisation du module Data Analysis d’Ellistat.
Le mode :
En statistiques, le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données. C’est la valeur qui a la plus haute fréquence, c’est-à-dire le nombre de fois qu’elle se répète dans l’ensemble. Un ensemble de données peut avoir un mode, plusieurs modes ou aucun mode du tout.
Le mode est particulièrement utile pour les données catégorielles, telles que les couleurs, les types de véhicules ou les catégories de produits. Cependant, il peut également être appliqué aux données numériques discrètes.
Par exemple, considérons l’ensemble de données suivant :
2,3,5,3,7,2,8,3
Dans cet ensemble, le nombre 3 apparaît plus fréquemment que les autres nombres, donc 3 est le mode de cet ensemble de données.
Il est important de noter que contrairement à la moyenne et à la médiane, le mode ne fournit pas d’indication sur la dispersion ou la tendance générale des données, il se concentre simplement sur la valeur la plus fréquente. Un ensemble de données peut avoir un mode unique (unimodal) s’il y a une seule valeur qui se répète plus fréquemment que les autres, ou être bimodal s’il y a deux valeurs qui sont toutes deux les plus fréquentes. (c’est le cas qu’on mélange deux populations différentes : deux fournisseurs différents par exemple)
Utilisation du module Data Analysis d’Ellistat.