A változékonyság statisztikai paraméterei

Olvasási idő

A statisztikában a szórásmutató az értékek változékonyságát értékeli egy adathalmazban. Ez mindig pozitív szám, és értéke annál nagyobb, minél távolabb vannak egymástól az adatok. A szóródás általánosan használt mérőszámai a statisztikai változékonysági paraméterek esetében a variancia, a szórás, a szórás, a tartomány és az interkvartilis tartomány. 

Terjedelem: 

A statisztikában a tartomány a legintuitívabb mérőszáma a halmazban lévő adatok változékonyságának. A statisztikában gyakran R betűvel jelölik. Az adott adathalmazban a maximális és a minimális érték közötti különbséget jelenti. Más szóval a tartomány a megfigyelt értékek teljes tartományát jelzi. 

Egy adathalmaz tartományának kiszámításához kövesse az alábbi lépéseket: 

  1. Keresse meg a maximális értéket (𝑋𝑚𝑎𝑥Xmax) az adathalmazban. 
  2. Keresse meg a minimális értéket (𝑋𝑚𝑖𝑛Xmin) az adathalmazban. 
  3. Számítsuk ki a tartományt 𝑅=𝑋𝑚𝑎𝑥-𝑋𝑚𝑖𝑛R=Xmax-Xmin 

A tartományt azonban jelentősen befolyásolhatják a szélsőértékek (vagy kiugró értékek), ami néha torzíthatja az értelmezést. Ezért a szórás más mértékegységeit, például a negyedek közötti tartományt vagy a szórás szórását gyakran használják a szórással együtt, hogy pontosabb képet kapjanak az adatok szórásáról. 

Interkvartilis tartomány 

Az interkvartilis tartomány a szóródás mérőszáma a statisztikában. Egy egyre inkább rendezett adathalmaz harmadik kvartilisének (𝑄3) és első kvartilisének (𝑄1) különbségét jelenti. A kvartilisek az adatokat négy egyenlő részre osztják, amelyek mindegyike a megfigyelések 25%-jét képviseli. Az alábbi whisker-doboz az 𝑄3 és 𝑄1 helyét szemlélteti. 

Az interkvartilis tartomány kiszámításához : 

  1. Keresse meg az első kvartilt (𝑄1Q1): Ez az az érték, amely elválasztja a 25% és a legalacsonyabb adatokat. 
  2. Keresse meg a harmadik kvartilist (𝑄3Q3): Ez az az érték, amely elválasztja a 25% és a legmagasabb adatokat. 
  3. Számítsa ki az E=𝑄3-𝑄1=Q3-Q1 tartományt. 

A nagy interkvartilis tartomány érték azt jelzi, hogy a mediánt (a rendezett adathalmaz közepén lévő értéket) széles körben szétszórt értékek veszik körül, míg az alacsony interkvartilis tartomány érték azt jelzi, hogy a medián körüli értékek szorosabban csoportosulnak. Az interkvartilis tartomány ezért kevésbé érzékeny a szélső értékekre, mint a tartomány, és jobban jelzi az alapadatok szórását. 

Eltérés :

A statisztikában a variancia a szórás egy olyan mérőszáma, amely egy adathalmaz egyes értékei és az adott halmaz átlaga közötti különbséget számszerűsíti. Azt jelzi, hogy a halmazban lévő értékek milyen mértékben szóródnak az átlag körül. A magas szórás azt jelenti, hogy az értékek széles körben szóródnak, míg az alacsony szórás azt jelzi, hogy az értékek szorosabban csoportosulnak az átlag körül. 

Az adathalmaz varianciájának kiszámítására szolgáló egyenlet a következő: 

Ha 𝑥1, 𝑥2, 𝑥3,... ,𝑥𝑁x1, x2, x3,... ,xN egy populáció egyedi értékei, és µ a populáció átlaga, akkor a populáció szórása 𝑉𝑎𝑟(𝑋)=𝜎2 a következőképpen számítható: 

\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N}

A : 

  • N: a populáció mérete 
  • µ: átlagos népesség 
  • xi: az i-edik populációs érték 

Folyamatos valószínűségi eloszlás esetén a variancia (σ²) is kiszámítható a következő képlettel : 

\sigma^2=\int_{}^{}(x-\mu)^2*f(x)*dx

A : 

  • x: a véletlen változót jelöli,  
  • μ: az eloszlás átlaga,  
  • f(x): az eloszlás valószínűségi sűrűségfüggvénye, amelyet a véletlen változó lehetséges értékeinek teljes terére integrálunk.  

A valóságban azonban a legtöbb esetben "n" méretű értékek (minta) sorozatával rendelkezünk, és a populáció átlaga gyakran ismeretlen. Ezért kiszámítjuk a variancia közelítő értékét. Ezt gyakran az S² kifejezéssel jelölik. Az alkalmazott számítási képlet a következő: 

\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N-1}

A :  

  • n: a minta mérete 
  • 𝑥: a minta átlaga 
  • xi: a minta i-edik értéke 

Miért kell osztani n-1-gyel, ha ez egy minta? 

Ezt a korrekciót Bessel-korrekciónak nevezik. Ennek a korrekciónak az az oka, hogy kompenzálja a mintából történő szórásbecslés esetleges torzítását. Az n-1-gyel való osztással a populáció szórásának torzításmentes becslését kapjuk. Ez a korrekció különösen fontos kis minták esetén, ahol az n alapján becsült variancia hajlamos alulbecsülni a populáció valódi változékonyságát. 

Miért nem használják széles körben a varianciát a változékonyság értelmezésére? 

A szórás az adatok szóródásának fontos mérőszáma, de számos gyakorlati és értelmezési okból kevésbé használatos, mint a szórás: 

  • Először is, a variancia az eredeti adatok négyzetmértékében van megadva, ami megnehezíti a közvetlen értelmezést. (Ha az egyedi adatok méterben vannak megadva, akkor a variancia négyzetméterben lesz megadva). 
  • Továbbá a variancia érzékeny a szélsőértékekre, mivel az átlagtól való eltérések négyzeteit foglalja magában, ami torzíthatja az általános szórás ábrázolását, különösen kiugró értékek jelenlétében. 

Bár a szórás statisztikai szempontból alapvető fontosságú, a szórást előnyben részesítik, mivel könnyebben értelmezhető és pontosabb mérőszámot ad az adatok szóródásáról. 

Standard eltérés :

Az eloszlás szórásának jellemzője az eloszlás szórása a valós számok terében. Minél nagyobb a szórás, annál szélesebb a szórás. A szórás kiszámításához egyszerűen számítsuk ki a szórás négyzetgyökét: 

S=\sqrt{\frac{\sum_{1}^{N}(xi-x)^{2}}{n-1}}

  • n: a minta mérete 
  • 𝑥: a minta átlaga 
  • xi: a minta i-edik értéke 
Diagramot, ábrát, képernyőképet, automatikusan generált szöveget tartalmazó kép Leírás  Az M1 gép standard eltérése 𝑆=1𝑚𝑚𝑚S=1mm  

 A gép M2 standard eltérése 𝑆=4𝑚𝑚𝑚S=4mm   
A szoftver használata Ellistat adatelemzés.

A szórás a szórással egyenértékű, de a mintával azonos egységben van kifejezve. Értéke ezért könnyebben értelmezhető.

Szóródás 

A szórás matematikai szempontból jó jellemzője a normális eloszlásnak, de nincs valódi intuitív megfelelője. Ezért inkább a szóródás kifejezést használjuk, amely megfelel : 

Szórás = annak az értékintervallumnak a szélessége, amelyben az értékek 99,73%-je megfigyelhető. 

Normális eloszlás esetén a szórást egyszerűen kiszámítjuk : 

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛=6∗𝜎

A szórás fogalma sokkal intuitívabb, mint a szórás szórása. Vegyük példának a következő adatokat. Ez egy 1000 adatpontból álló megfigyelés, normál eloszlással, 0 átlaggal és 1 szórással. 

Ha intuitív módon szeretnénk jellemezni ezeknek az értékeknek a szórását, akkor hajlamosak lennénk azt mondani, hogy az értékek szórása 6 körül van, mivel a megfigyelt értékek -3 és +3 között helyezkednek el. 

A szórás intuitív definíciója valójában a minta tartományának felel meg (tartomány = Max - Min). A tartománynak mint az eloszlás jellemzőjének használatának azonban nincs statisztikai értelme. A normális eloszlás -∞ és +∞ között változik, így ennek az eloszlásnak a tartománya ∞ lenne. 

A szórás megfelel a változékonyság intuitív definíciójának, de van egy statisztikai jelentése is. Ez az az intervallum, amelyen belül gyakorlatilag az összes értéket megfigyeljük, azaz az értékek 99,73%-jét.