Parametri statistici di variabilità

Tempo di lettura

In statistica, un indicatore di dispersione valuta la variabilità dei valori in un insieme di dati. È sempre un numero positivo e il suo valore aumenta con l'aumentare della distanza tra i dati. Le misure di dispersione comunemente utilizzate per i parametri statistici di variabilità includono la varianza, la deviazione standard, la dispersione, l'intervallo e l'intervallo interquartile. 

Ambito di applicazione: 

In statistica, l'intervallo è la misura più intuitiva della variabilità dei dati di un insieme. In statistica, viene spesso simboleggiato con la lettera R. Rappresenta la differenza tra il valore massimo e il valore minimo di quell'insieme di dati. In altre parole, l'intervallo indica la gamma totale di valori osservati. 

Per calcolare l'intervallo di un insieme di dati, procedere come segue : 

  1. Trovare il valore massimo (𝑋𝑚𝑎𝑥Xmax) nell'insieme dei dati. 
  2. Trovare il valore minimo (𝑋𝑚𝑖𝑛Xmin) nell'insieme dei dati. 
  3. Calcolare l'intervallo 𝑅=𝑋𝑚𝑎𝑥-𝑋𝑚𝑖𝑛R=Xmax-Xmin 

Tuttavia, l'intervallo può essere influenzato in modo significativo dai valori estremi (o outlier), che a volte possono falsarne l'interpretazione. Per questo motivo, spesso si utilizzano altre misure di dispersione, come l'intervallo interquartile o la deviazione standard, insieme all'intervallo per ottenere un quadro più accurato della variazione dei dati. 

Intervallo interquartile 

L'intervallo interquartile è una misura della dispersione in statistica. Rappresenta la differenza tra il terzo quartile (𝑄3) e il primo quartile (𝑄1) di una serie di dati ordinati in modo crescente. I quartili dividono i dati in quattro parti uguali, ciascuna delle quali rappresenta 25% delle osservazioni. Il riquadro dei baffi sottostante illustra le posizioni di 𝑄3 e 𝑄1. 

Per calcolare l'intervallo interquartile : 

  1. Trovare il primo quartile (𝑄1Q1): È il valore che separa il 25% dai dati più bassi. 
  2. Trovare il terzo quartile (𝑄3Q3): È il valore che separa il 25% dai dati più alti. 
  3. Calcolare l'intervallo E=𝑄3-𝑄1=Q3-Q1 

Un valore elevato dell'intervallo interquartile indica che la mediana (il valore al centro della serie di dati ordinati) è circondata da valori molto dispersi, mentre un valore basso dell'intervallo interquartile indica che i valori intorno alla mediana sono più strettamente raggruppati. L'intervallo interquartile è quindi meno sensibile ai valori estremi rispetto all'intervallo, fornendo una migliore indicazione della dispersione dei dati principali. 

Varianza :

In statistica, la varianza è una misura di dispersione che quantifica la differenza tra ogni singolo valore di un insieme di dati e la media di quell'insieme. Indica in che misura i valori dell'insieme sono dispersi intorno alla media. Un'alta varianza significa che i valori sono ampiamente dispersi, mentre una bassa varianza indica che i valori sono più strettamente raggruppati intorno alla media. 

L'equazione per il calcolo della varianza di un insieme di dati è la seguente: 

Se 𝑥1, 𝑥2, 𝑥3,... ,𝑥𝑁x1, x2, x3,... ,xN sono i valori individuali di una popolazione e µ è la media della popolazione, allora la varianza della popolazione 𝑉𝑎𝑟(𝑋)=𝜎2 è calcolata come segue: 

\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N}

Con : 

  • N: dimensione della popolazione 
  • µ: popolazione media 
  • xi: il valore della popolazione iesimo 

Nel caso di una distribuzione di probabilità continua, la varianza (σ²) può essere calcolata anche con la formula : 

\sigma^2=\int_{}^{}(x-\mu)^2*f(x)*dx

Con : 

  • x: rappresenta la variabile casuale,  
  • μ: è la media della distribuzione,  
  • f(x): è la funzione di densità di probabilità della distribuzione, integrata sull'intero spazio dei possibili valori della variabile casuale.  

Ma in realtà, nella maggior parte dei casi, abbiamo una serie di valori di dimensione "n" (un campione) e la media della popolazione è spesso sconosciuta. Pertanto, calcoliamo un'approssimazione della varianza. Questa è spesso simboleggiata dal termine S² . La formula di calcolo utilizzata è la seguente: 

\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N-1}

Con :  

  • n: dimensione del campione 
  • 𝑥: la media del campione 
  • xi: l'iesimo valore del campione 

Perché dividere per n-1 quando si tratta di un campione? 

Questa correzione è chiamata correzione di Bessel. La ragione di questa correzione è di compensare la potenziale distorsione nella stima della varianza dal campione. Dividendo per n-1, si ottiene una stima non distorta della varianza della popolazione. Questa correzione è particolarmente importante nei campioni piccoli, dove la stima della varianza basata su n tende a sottostimare la vera variabilità della popolazione. 

Perché la varianza non è molto utilizzata per interpretare la variabilità? 

La varianza è una misura importante della dispersione dei dati, ma tende a essere utilizzata meno della deviazione standard per una serie di ragioni pratiche e interpretative: 

  • In primo luogo, la varianza è espressa in unità al quadrato dei dati originali, il che rende difficile l'interpretazione diretta. (Se i dati individuali sono in metri, la varianza sarà in metri al quadrato). 
  • Inoltre, la varianza è sensibile ai valori estremi, in quanto coinvolge i quadrati delle deviazioni dalla media, il che può falsare la rappresentazione della dispersione complessiva, soprattutto in presenza di outlier. 

Sebbene la varianza sia fondamentale da un punto di vista statistico, la deviazione standard è preferita per la sua facilità di interpretazione e per la sua capacità di fornire una misura più accurata della dispersione dei dati. 

Deviazione standard :

La deviazione standard della distribuzione è una caratteristica della dispersione di questa distribuzione nello spazio dei numeri reali. Più grande è la deviazione standard, più ampia è la dispersione. Per calcolare la deviazione standard, è sufficiente calcolare la radice quadrata della varianza: 

S=\sqrt{\frac{\sum_{1}^{N}(xi-x)^{2}}{n-1}}

  • n: dimensione del campione 
  • 𝑥: la media del campione 
  • xi: l'iesimo valore del campione 
Un'immagine contenente un diagramma, un grafico, una schermata, un testo generato automaticamenteDescrizione  Deviazione standard della macchina M1 𝑆=1𝑚𝑚S=1mm  

 Deviazione standard della macchina M2 𝑆=4𝑚𝑚S=4mm   
Utilizzo del software Analisi dei dati Ellistat.

La deviazione standard è l'equivalente della varianza, ma è espressa nella stessa unità del campione. Il suo valore è quindi più facile da interpretare.

Dispersione 

La deviazione standard è una buona caratteristica della distribuzione normale da un punto di vista matematico, ma non ha un vero e proprio equivalente intuitivo. Preferiamo quindi utilizzare il termine dispersione, che corrisponde a : 

Dispersione = ampiezza dell'intervallo di valori in cui si osserva il 99,73% dei valori. 

Nel caso di una distribuzione normale, la dispersione si calcola semplicemente : 

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛=6∗𝜎

La nozione di dispersione è molto più intuitiva della deviazione standard. Prendiamo l'esempio dei seguenti dati. Si tratta di un'osservazione di 1000 punti di dati con una distribuzione normale, media 0 e deviazione standard 1. 

Se volessimo caratterizzare la dispersione di questi valori in modo intuitivo, saremmo tentati di dire che la dispersione dei valori si aggira intorno a 6 perché i valori osservati sono contenuti tra -3 e +3. 

La nostra definizione intuitiva di dispersione corrisponde in realtà all'intervallo di un campione (intervallo = Max - Min). Tuttavia, utilizzare l'intervallo come caratteristica di una distribuzione non ha senso dal punto di vista statistico. La distribuzione normale varia da -∞ a +∞ , quindi l'intervallo di questa distribuzione sarebbe ∞. 

La dispersione corrisponde alla definizione intuitiva di variabilità, ma ha un significato statistico: è l'intervallo in cui osserveremo praticamente tutti i valori, cioè 99,73% dei valori.