In der Statistik bewertet ein Streuungsindikator die Variabilität der Werte in einem Datensatz. Er ist immer eine positive Zahl und sein Wert steigt, je weiter die Daten voneinander entfernt sind. Zu den häufig verwendeten Streuungsmaßen für statistische Variabilitätsparameter gehören die Varianz, die Standardabweichung, die Streuung, die Ausdehnung und der Interquartilsabstand.
Umfang :
Die Spannweite in der Statistik ist das intuitivste Maß für die Variabilität der Daten in einem Datensatz. In der Statistik wird sie häufig durch den Buchstaben R symbolisiert. Sie stellt die Differenz zwischen dem höchsten und dem niedrigsten Wert in diesem Datensatz dar. Mit anderen Worten: Die Spannweite gibt die gesamte Reichweite der beobachteten Werte an.
Um den Umfang eines Datensatzes zu berechnen, gehen Sie wie folgt vor:
- Finde den Maximalwert (𝑋𝑚𝑎𝑥Xmax) in dem Datensatz.
- Finde den Minimalwert (𝑋𝑚𝑖𝑛Xmin) in dem Datensatz.
- Berechne den Umfang 𝑅=𝑋𝑚𝑎𝑥-𝑋𝑚𝑖𝑛R=Xmax-Xmin
Die Spannweite kann jedoch durch Extremwerte (oder Ausreißer) erheblich beeinflusst werden, wodurch ihre Interpretation manchmal verzerrt wird. Daher werden häufig andere Streuungsmaße wie der Interquartilsabstand oder die Standardabweichung in Verbindung mit der Spannweite verwendet, um ein genaueres Bild der Variation der Daten zu erhalten.
Der Interquartilabstand
Der Interquartilsabstand ist ein Maß für die Streuung in der Statistik. Er stellt die Differenz zwischen dem dritten Quartil (𝑄3) und dem ersten Quartil (𝑄1) eines aufsteigend sortierten Datensatzes dar. Die Quartile teilen die Daten in vier gleiche Teile, von denen jeder 25% der Beobachtungen repräsentiert. Das folgende Boxplot veranschaulicht die Positionen von 𝑄3 und 𝑄1.
Um den Interquartilabstand zu berechnen :
- Finden Sie das erste Quartil (𝑄1Q1) : Dies ist der Wert, der die 25% von den niedrigsten Daten trennt.
- Finden Sie das dritte Quartil (𝑄3Q3) : Dies ist der Wert, der die 25% von den höchsten Daten trennt.
- Berechnen Sie den Umfang E=𝑄3-𝑄1=Q3-Q1
Ein großer Wert für den Interquartilsabstand zeigt an, dass der Median (der Wert in der Mitte des sortierten Datensatzes) von stark gestreuten Werten umgeben ist, während ein kleiner Wert für den Interquartilsabstand anzeigt, dass die Werte um den Median enger gruppiert sind. Der Interquartilsabstand ist daher weniger anfällig für extreme Werte als die Spannweite, indem er einen besseren Hinweis auf die Streuung des Kerndatensatzes liefert.
Varianz :
In der Statistik ist die Varianz ein Streuungsmaß, das die Abweichung zwischen jedem einzelnen Wert eines Datensatzes und dem Mittelwert dieses Datensatzes quantifiziert. Sie gibt an, wie stark die Werte des Datensatzes um den Mittelwert gestreut sind. Eine hohe Varianz bedeutet, dass die Werte stark gestreut sind, während eine niedrige Varianz anzeigt, dass die Werte enger um den Mittelwert gruppiert sind.
Die Gleichung zur Berechnung der Varianz eines Datensatzes lautet wie folgt:
Wenn 𝑥1, 𝑥2, 𝑥3,... ,𝑥𝑁x1, x2, x3,... ,xN die einzelnen Werte einer Population sind und µ der Mittelwert der Population ist, dann wird die Varianz der Population 𝑉𝑎𝑟(𝑋)=𝜎2 wie folgt berechnet:
\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N}
Mit :
- N: die Größe der Bevölkerung
- µ: der Bevölkerungsdurchschnitt
- xi: der i-te Wert der Grundgesamtheit
Im Fall einer kontinuierlichen Wahrscheinlichkeitsverteilung kann die Varianz (σ²) auch mithilfe der Formel berechnet werden:
\sigma^2=\int_{}^{}(x-\mu)^2*f(x)*dx
Mit :
- x: steht für die Zufallsvariable,
- μ: ist der Mittelwert der Verteilung,
- f(x): ist die Wahrscheinlichkeitsdichtefunktion der Verteilung, und die Integration erfolgt über den gesamten Raum der möglichen Werte der Zufallsvariablen.
Da in der Realität jedoch in den meisten Fällen eine Reihe von Werten der Größe "n" (eine Stichprobe) vorliegt und der Populationsmittelwert oft unbekannt ist. Man berechnet daher eine Näherung der Varianz. Diese wird häufig durch den Begriff S² symbolisiert. Die verwendete Berechnungsformel lautet wie folgt:
\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N-1}
Mit :
- n: die Größe der Stichprobe
- 𝑥: der Mittelwert der Stichprobe
- xi: der i-te Wert in der Stichprobe
Warum durch n-1 teilen, wenn es sich um eine Stichprobe handelt?
Diese Korrektur wird als Bessel-Korrektur bezeichnet. Der Grund für diese Korrektur ist, die potenzielle Verzerrung bei der Schätzung der Varianz aus der Stichprobe auszugleichen. Wenn wir durch n-1 teilen, erhalten wir eine unverzerrte Schätzung der Varianz der Grundgesamtheit. Diese Korrektur ist besonders wichtig bei kleinen Stichproben, wo die auf n basierende Varianzschätzung dazu neigt, die wahre Variabilität in der Population zu unterschätzen.
Warum wird die Varianz nicht häufig zur Interpretation der Variabilität verwendet?
Die Varianz ist ein wichtiges Maß für die Streuung von Daten, wird aber aus mehreren praktischen und interpretatorischen Gründen tendenziell weniger häufig verwendet als die Standardabweichung :
- Zunächst einmal ist die Varianz in Einheiten zum Quadrat der Originaldaten, was es schwierig macht, sie direkt zu interpretieren. (Wenn die individuellen Daten in Metern sind, wird die Varianz in Quadratmetern sein).
- Außerdem ist die Varianz anfällig für Extremwerte, da sie die Quadrate der Abweichungen vom Mittelwert impliziert, was ihre Darstellung der allgemeinen Streuung verzerren kann, insbesondere wenn Ausreißer vorhanden sind.
Obwohl die Varianz statistisch gesehen grundlegend ist, wird die Standardabweichung bevorzugt, weil sie leichter zu interpretieren ist und ein genaueres Maß für die Streuung der Daten bietet.
Standardabweichung :
Die Standardabweichung einer Verteilung ist ein Merkmal der Streuung dieser Verteilung im Raum der reellen Zahlen. Je größer die Standardabweichung, desto breiter ist die Streuung. Um die Standardabweichung zu berechnen, berechnen Sie einfach die Quadratwurzel der Varianz :
S=\sqrt{\frac{\sum_{1}^{N}(xi-x)^{2}}{n-1}}
- n: die Größe der Stichprobe
- 𝑥: der Mittelwert der Stichprobe
- xi: der i-te Wert in der Stichprobe
Standardabweichung der Maschine M1 𝑆=1𝑚𝑚S=1mm Standardabweichung der Maschine M2 𝑆=4𝑚𝑚S=4mm |
Die Standardabweichung entspricht der Varianz, wird aber in derselben Einheit wie die Stichprobe ausgedrückt. Sein Wert ist daher leichter interpretierbar.
Dispersion
Die Standardabweichung ist mathematisch gesehen ein gutes Merkmal der Normalverteilung, hat aber keine wirklich intuitive Entsprechung. Daher zieht man es vor, den Begriff Streuung zu verwenden, der entspricht :
Streuung = Breite des Wertintervalls, in dem 99.73% der Werte beobachtet werden.
Im Falle einer Normalverteilung lässt sich die Streuung einfach berechnen :
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛=6∗𝜎
Der Begriff der Streuung ist viel intuitiver als die Standardabweichung. Nehmen wir die folgenden Daten als Beispiel. Es handelt sich um eine Beobachtung von 1000 Daten mit einer Normalverteilung, dem Mittelwert 0 und der Standardabweichung 1.
Wenn wir die Streuung dieser Werte intuitiv charakterisieren wollen, wären wir eher versucht zu sagen, dass die Streuung der Werte um 6 herum liegt, da die beobachteten Werte zwischen -3 und +3 enthalten sind.
Unsere intuitive Definition von Streuung entspricht eigentlich der Spannweite einer Stichprobe (Spannweite = Max - Min). Die Spannweite als Merkmal einer Verteilung zu verwenden, ist jedoch statistisch nicht sinnvoll. Die Normalverteilung variiert nämlich von -∞ bis +∞ , die Spannweite dieser Verteilung wäre also ∞.
Die Streuung entspricht der intuitiven Definition von Variabilität und hat gleichzeitig eine statistische Bedeutung. Es handelt sich um das Intervall, in dem wir praktisch alle Werte beobachten werden, d. h. 99,73% der Werte.