A statisztikában a szórásmutató az értékek változékonyságát értékeli egy adathalmazban. Ez mindig pozitív szám, és értéke annál nagyobb, minél távolabb vannak egymástól az adatok. A szóródás általánosan használt mérőszámai a statisztikai változékonysági paraméterek esetében a variancia, a szórás, a szórás, a tartomány és az interkvartilis tartomány.
Terjedelem:
A statisztikában a tartomány a legintuitívabb mérőszáma a halmazban lévő adatok változékonyságának. A statisztikában gyakran R betűvel jelölik. Az adott adathalmazban a maximális és a minimális érték közötti különbséget jelenti. Más szóval a tartomány a megfigyelt értékek teljes tartományát jelzi.
Egy adathalmaz tartományának kiszámításához kövesse az alábbi lépéseket:
- Keresse meg a maximális értéket (𝑋𝑚𝑎𝑥Xmax) az adathalmazban.
- Keresse meg a minimális értéket (𝑋𝑚𝑖𝑛Xmin) az adathalmazban.
- Számítsuk ki a tartományt 𝑅=𝑋𝑚𝑎𝑥-𝑋𝑚𝑖𝑛R=Xmax-Xmin
A tartományt azonban jelentősen befolyásolhatják a szélsőértékek (vagy kiugró értékek), ami néha torzíthatja az értelmezést. Ezért a szórás más mértékegységeit, például a negyedek közötti tartományt vagy a szórás szórását gyakran használják a szórással együtt, hogy pontosabb képet kapjanak az adatok szórásáról.
Interkvartilis tartomány
Az interkvartilis tartomány a szóródás mérőszáma a statisztikában. Egy egyre inkább rendezett adathalmaz harmadik kvartilisének (𝑄3) és első kvartilisének (𝑄1) különbségét jelenti. A kvartilisek az adatokat négy egyenlő részre osztják, amelyek mindegyike a megfigyelések 25%-jét képviseli. Az alábbi whisker-doboz az 𝑄3 és 𝑄1 helyét szemlélteti.

Az interkvartilis tartomány kiszámításához :
- Keresse meg az első kvartilt (𝑄1Q1): Ez az az érték, amely elválasztja a 25% és a legalacsonyabb adatokat.
- Keresse meg a harmadik kvartilist (𝑄3Q3): Ez az az érték, amely elválasztja a 25% és a legmagasabb adatokat.
- Számítsa ki az E=𝑄3-𝑄1=Q3-Q1 tartományt.
A nagy interkvartilis tartomány érték azt jelzi, hogy a mediánt (a rendezett adathalmaz közepén lévő értéket) széles körben szétszórt értékek veszik körül, míg az alacsony interkvartilis tartomány érték azt jelzi, hogy a medián körüli értékek szorosabban csoportosulnak. Az interkvartilis tartomány ezért kevésbé érzékeny a szélső értékekre, mint a tartomány, és jobban jelzi az alapadatok szórását.
Eltérés :
A statisztikában a variancia a szórás egy olyan mérőszáma, amely egy adathalmaz egyes értékei és az adott halmaz átlaga közötti különbséget számszerűsíti. Azt jelzi, hogy a halmazban lévő értékek milyen mértékben szóródnak az átlag körül. A magas szórás azt jelenti, hogy az értékek széles körben szóródnak, míg az alacsony szórás azt jelzi, hogy az értékek szorosabban csoportosulnak az átlag körül.
Az adathalmaz varianciájának kiszámítására szolgáló egyenlet a következő:
Ha 𝑥1, 𝑥2, 𝑥3,... ,𝑥𝑁x1, x2, x3,... ,xN egy populáció egyedi értékei, és µ a populáció átlaga, akkor a populáció szórása 𝑉𝑎𝑟(𝑋)=𝜎2 a következőképpen számítható:
\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N}
A :
- N: a populáció mérete
- µ: átlagos népesség
- xi: az i-edik populációs érték
Folyamatos valószínűségi eloszlás esetén a variancia (σ²) is kiszámítható a következő képlettel :
\sigma^2=\int_{}^{}(x-\mu)^2*f(x)*dx
A :
- x: a véletlen változót jelöli,
- μ: az eloszlás átlaga,
- f(x): az eloszlás valószínűségi sűrűségfüggvénye, amelyet a véletlen változó lehetséges értékeinek teljes terére integrálunk.
A valóságban azonban a legtöbb esetben "n" méretű értékek (minta) sorozatával rendelkezünk, és a populáció átlaga gyakran ismeretlen. Ezért kiszámítjuk a variancia közelítő értékét. Ezt gyakran az S² kifejezéssel jelölik. Az alkalmazott számítási képlet a következő:
\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N-1}
A :
- n: a minta mérete
- 𝑥: a minta átlaga
- xi: a minta i-edik értéke
Miért kell osztani n-1-gyel, ha ez egy minta?
Ezt a korrekciót Bessel-korrekciónak nevezik. Ennek a korrekciónak az az oka, hogy kompenzálja a mintából történő szórásbecslés esetleges torzítását. Az n-1-gyel való osztással a populáció szórásának torzításmentes becslését kapjuk. Ez a korrekció különösen fontos kis minták esetén, ahol az n alapján becsült variancia hajlamos alulbecsülni a populáció valódi változékonyságát.
Miért nem használják széles körben a varianciát a változékonyság értelmezésére?
A szórás az adatok szóródásának fontos mérőszáma, de számos gyakorlati és értelmezési okból kevésbé használatos, mint a szórás:
- Először is, a variancia az eredeti adatok négyzetmértékében van megadva, ami megnehezíti a közvetlen értelmezést. (Ha az egyedi adatok méterben vannak megadva, akkor a variancia négyzetméterben lesz megadva).
- Továbbá a variancia érzékeny a szélsőértékekre, mivel az átlagtól való eltérések négyzeteit foglalja magában, ami torzíthatja az általános szórás ábrázolását, különösen kiugró értékek jelenlétében.
Bár a szórás statisztikai szempontból alapvető fontosságú, a szórást előnyben részesítik, mivel könnyebben értelmezhető és pontosabb mérőszámot ad az adatok szóródásáról.
Standard eltérés :
Az eloszlás szórásának jellemzője az eloszlás szórása a valós számok terében. Minél nagyobb a szórás, annál szélesebb a szórás. A szórás kiszámításához egyszerűen számítsuk ki a szórás négyzetgyökét:
S=\sqrt{\frac{\sum_{1}^{N}(xi-x)^{2}}{n-1}}
- n: a minta mérete
- 𝑥: a minta átlaga
- xi: a minta i-edik értéke
Az M1 gép standard eltérése 𝑆=1𝑚𝑚𝑚S=1mm A gép M2 standard eltérése 𝑆=4𝑚𝑚𝑚S=4mm |
A szórás a szórással egyenértékű, de a mintával azonos egységben van kifejezve. Értéke ezért könnyebben értelmezhető.
Szóródás
A szórás matematikai szempontból jó jellemzője a normális eloszlásnak, de nincs valódi intuitív megfelelője. Ezért inkább a szóródás kifejezést használjuk, amely megfelel :
Szórás = annak az értékintervallumnak a szélessége, amelyben az értékek 99,73%-je megfigyelhető.
Normális eloszlás esetén a szórást egyszerűen kiszámítjuk :
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛=6∗𝜎
A szórás fogalma sokkal intuitívabb, mint a szórás szórása. Vegyük példának a következő adatokat. Ez egy 1000 adatpontból álló megfigyelés, normál eloszlással, 0 átlaggal és 1 szórással.

Ha intuitív módon szeretnénk jellemezni ezeknek az értékeknek a szórását, akkor hajlamosak lennénk azt mondani, hogy az értékek szórása 6 körül van, mivel a megfigyelt értékek -3 és +3 között helyezkednek el.
A szórás intuitív definíciója valójában a minta tartományának felel meg (tartomány = Max - Min). A tartománynak mint az eloszlás jellemzőjének használatának azonban nincs statisztikai értelme. A normális eloszlás -∞ és +∞ között változik, így ennek az eloszlásnak a tartománya ∞ lenne.
A szórás megfelel a változékonyság intuitív definíciójának, de van egy statisztikai jelentése is. Ez az az intervallum, amelyen belül gyakorlatilag az összes értéket megfigyeljük, azaz az értékek 99,73%-jét.