Un intervallo di confidenza è un intervallo plausibile di valori per un parametro statistico, stimato da un campione di dati. Dà un'idea della precisione della nostra stima del parametro. L'intervallo di confidenza è generalmente espresso con un livello di confidenza associato, che rappresenta la probabilità che l'intervallo contenga effettivamente il parametro vero della popolazione.
Media :
L'intervallo di confidenza della media è un intervallo statistico che fornisce una stima plausibile dell'intervallo entro cui si trova la vera media di una popolazione. Viene costruito utilizzando i dati di un campione di questa popolazione.
Certamente, la creazione di un intervallo di confidenza per la media è possibile grazie al teorema del limite centrale. Per campioni sufficientemente grandi (n≥30), qualunque sia la forma della distribuzione della popolazione, se vengono presi a caso diversi campioni di dimensione "n", le medie di questi campioni \left{overline{X} \´destra} sono approssimativamente distribuiti in modo normale. Ciò consente di costruire intervalli di confidenza affidabili per stimare la vera media della popolazione.
La costruzione dell'intervallo di confidenza per la media si basa sull'uso della distribuzione t di Student o della distribuzione normale, a seconda delle dimensioni del campione e della conoscenza della deviazione standard della popolazione.
Poiché questo calcolo è un'approssimazione, è necessario conoscere l'accuratezza di questa approssimazione. In generale, per caratterizzare l'accuratezza di questa approssimazione, calcoliamo l'intervallo a 95%. Questo intervallo corrisponde a :
Intervallo a 95% = Intervallo in cui c'è una probabilità di 95% che il vero valore della media della distribuzione si trovi al suo interno.
In statistica 95% è chiamato intervallo di confidenza (1- α), complementare al rischio di primo tipo α=5%. Questo rischio rappresenta la possibilità che il valore della media della distribuzione si trovi al di fuori dell'intervallo di confidenza.
Ecco come costruire un intervallo di confidenza per la media:
- Calcolare la media e la deviazione standard del campione di dimensione "n": utilizzando i dati del campione, calcolare la media e la deviazione standard del campione. \´overline{X} e S.
- Scelta del livello di confidenza (1- α): Selezionare un livello di confidenza, spesso espresso in percentuale, come 95% o 99%. Un livello di confidenza di 95% significa che siamo sicuri che l'intervallo costruito conterrà la vera media della popolazione.
- Determinazione dell'intervallo: utilizzare la formula dell'intervallo di confidenza per la media in base alla distribuzione appropriata (Student o normale):
- Se si conosce la deviazione standard della popolazione 𝜎, utilizzare la distribuzione normale:
- IC = \overline{X} \underline{+}Z_{\frac{a}{2}}\ast \frac{S}{\sqrt{n}} dove:
- Z\frac{2}{a} è lo z-score corrispondente al livello di confidenza. (Bilaterale)
- n: è la dimensione del campione.
- IC = \overline{X} \underline{+}Z_{\frac{a}{2}}\ast \frac{S}{\sqrt{n}} dove:
- Se non si conosce la deviazione standard della popolazione 𝜎, utilizzare la distribuzione di Student:
- IC = \overline{X} \underline{+}t_{\frac{a}{2}n-1}\ast \frac{S}{\sqrt{n}} dove:
- t_{rac{a}{2}n-1}è il punteggio t corrispondente al livello di confidenza e per n-1 gradi di libertà.
- n: è la dimensione del campione.
- IC = \overline{X} \underline{+}t_{\frac{a}{2}n-1}\ast \frac{S}{\sqrt{n}} dove:
- Se si conosce la deviazione standard della popolazione 𝜎, utilizzare la distribuzione normale:
L'intervallo di confidenza della media fornisce quindi un intervallo di valori all'interno del quale siamo sicuri, a un certo livello di confidenza (1-𝛼), che si trovi la vera media della popolazione µ. Più alto è il livello di confidenza, più ampio sarà l'intervallo, riflettendo un maggior grado di fiducia nella stima.
Deviazione standard S | Dimensione del campione n | Fiducia (1-α) | |
Larghezza dell'intervallo di confidenza della IC media. | L'ampiezza del CI aumenta se aumenta la deviazione standard | L'ampiezza del CI diminuisce con l'aumentare delle dimensioni del campione | L'ampiezza dell'IC aumenta con l'aumentare della fiducia |
Esempio: vogliamo sapere come calcolare l'intervallo di confidenza per il consumo medio di zucchero per famiglia con una confidenza di 95%. È stato preso un campione di 18 famiglie. Di seguito è riportata la tabella dei risultati:
5 | 13 | 11 | 5 | 2 | 3 | 2 | 1 | 6 | 14 | 6 | 8 | 2 | 13 | 9 | 5 | 12 | 7 |
Soluzione:
Calcoliamo la media, la deviazione standard e il numero di gradi di libertà
\´overline{X} = ´frac{5+13+11+5+2+3+2+1+6+14+6+8+2+13+9+5+12+7}{18} = 6,88
S = \sqrt{\frac{\sum_{1}^{N}(xi-\overline{x})^{2}}{17}} = 4,25
n-1 =17
Dalla tabella della legge di Student, o con il software Analisi dei dati Ellistattroviamo il valore t=2,110
Possiamo quindi ricavare il seguente intervallo di confidenza:
\´overline{X}-t_{\frac{a}{2};n-1}\ast \frac{S}{\sqrt{n}}le ´mu´le ´overline{X}+t_{\frac{a}{2}n-1}\ast \frac{S}{\sqrt{n}}
6.88-2.110\ast \frac{4.25}{\sqrt{18}}
4,773 \mu\le 9,005
Varianza / Deviazione standard:
Per costruire un intervallo di confidenza per la varianza di una popolazione, si utilizza la distribuzione chi-2 (x^{2}). Sappiamo che la varianza viene stimata con la seguente formula:
</p><p>La formula chi-2 ([latex]x^{2} della varianza si scrive come segue :
X^{2} = \frac{(n-1)S^{2}}{sigma^{2}}
La curva della funzione di densità chi-2 (x^{2}) assomiglia a una distribuzione normale, ma non è simmetrica. Soprattutto, la sua forma dipende dal numero di gradi di libertà. Il grafico sottostante mostra il diagramma della funzione di densità chi-2 (x^{2})per un grado di libertà di n=4 .
Il x^{2} può essere utilizzato per dedurre l'intervallo di confidenza della varianza 𝜎², per un campione di dimensioni n e confidenza 1-α.
\frac{(n-1)S^{2}}{X^{2}_{n-1;\frac{a}{2}}}\le \sigma^{2}\le \frac{(n-1)S^{2}}{X^{2}n-1;1-\frac{a}{2}}
Processo per il calcolo dell'intervallo di confidenza della varianza :
- Calcolo della varianza e dei gradi di libertà: dai dati del campione, calcolare la varianza S² e i gradi di libertà (n-1).
- Trovare i valori critici del chi-quadro: Trovare i valori critici del chi-quadro X^{2}n-1;\frac{a}{2}\text{et}X^{2}n-1;1-\frac{a}{2} per il livello di confidenza e i gradi di libertà desiderati. È possibile trovare questi valori nelle tabelle di distribuzione 𝜒2 o utilizzando Ellistat.
- Utilizzare le seguenti formule per determinare l'intervallo di confidenza della varianza:
\frac{(n-1)S^{2}}{X^{2}_{n-1;\frac{a}{2}}}\le \sigma^{2}\le \frac{(n-1)S^{2}}{X^{2}n-1;1-\frac{a}{2}}
NB: l'intervallo di confidenza della deviazione standard può essere dedotto in questo modo, ponendo la radice su entrambi i lati.
\sqrt{\frac{(n-1)S^{2}}{X^{2}n-1;\frac{a}{2}}}\le \sigma\le \sqrt{\frac{(n-1)S^{2}}{X^{2}n-1;1-\frac{a}{2}}}
Esempio: è stato prelevato un campione di 10 bombole dalla produzione. Vogliamo avere un'idea della variabilità del processo. Determinare l'intervallo di confidenza della varianza 𝜎2 per una confidenza di 95% :
10 | 10 | 12 | 10 | 11 |
10 | 11 | 11 | 10 | 11 |
Soluzione:
Calcoliamo la deviazione standard S e il numero di gradi di libertà :
S^{2} = \frac{sum_{1}^{N}(xi-\overline{x})^{2}}{9} = 0,489
n-1=9
Per un livello di confidenza (1-α) di 95%, possiamo dedurre i valori dei quantili utilizzati per calcolare l'intervallo di confidenza della varianza:
\frac{\alfa}{2}=0,025{text{ e } 1-\frac{\alfa}{2} = 0,975
Dalla tabella della legge 𝜒2, o con il software Ellistat, è possibile trovare il valore di X^{2}{9;\frac{a}{2}}=19.02\text{ et }X^{2}{9;1-\frac{a}{2}}=2.70
Possiamo quindi calcolare l'intervallo di confidenza della varianza a un livello di confidenza di 95%.
\frac{(n-1)S^{2}}{X^{2}_{n-1;\frac{a}{2}}}\le \sigma^{2}\le \frac{(n-1)S^{2}}{X^{2}n-1;1-\frac{a}{2}}
\frac{90.489}{19.02}\le \sigma^{2}\le \frac{90.489}{2.70}
0,231 \sigma^{2}\le 1,629
0,480sigma 1,276
Proporzione
L'intervallo di confidenza di una proporzione è un intervallo di valori all'interno del quale si stima che una proporzione di una data popolazione possa trovarsi, con una certa probabilità. In altre parole, è un intervallo di valori costruito a partire da dati campionari, all'interno del quale si stima che si trovi la vera proporzione della popolazione, con un determinato livello di confidenza.
Esistono vari metodi per calcolare l'intervallo di confidenza di una proporzione in statistica, ma i due più comunemente utilizzati sono :
- Metodo esatto (per campioni di piccole dimensioni).
- Metodo approssimativo (con distribuzione normale)
Metodo esatto(calcolato utilizzando la distribuzione binomiale)
Il metodo esatto per calcolare l'intervallo di confidenza di una proporzione si basa sulla distribuzione binomiale e fornisce una soluzione accurata senza le approssimazioni dei metodi asintotici. Questo metodo è particolarmente utile per campioni di piccole dimensioni o quando la proporzione osservata (
𝑝ˆp^
) è prossimo a 0 o 1.
Ecco i passaggi per calcolare l'intervallo di confidenza esatto per la proporzione:
Fase 1: Calcolare la proporzione osservata sul campione n con k successi.𝑝ˆ=𝑘𝑛p^=kn Determinare i limiti dell'intervallo di confidenza .
Fase 2Calcolare i quantili della distribuzione binomiale. Questi quantili delimitano l'intervallo di confidenza. Per un livello di confidenza di 1-α, è necessario trovare il quantile Q1 al percentile 𝛼2𝛼2 e poi il quantile Q2 al percentile 1-𝛼21-𝛼2 dalla tabella della distribuzione binomiale. Questi quantili possono essere trovati utilizzando le tabelle della distribuzione binomiale o il software Ellistat.
Passo 3: Calcolo dell'intervallo di confidenza: L'intervallo di confidenza viene calcolato con la seguente formula: Calcolare quindi l'intervallo di confidenza [𝑄1𝑛;𝑄2𝑛][Q1n;Q2n].
Esempio: supponiamo che, dopo aver prelevato un campione di dimensioni n=20, si siano osservati k=15 pezzi conformi. Calcolare l'intervallo di confidenza esatto della proporzione di pezzi conformi per un livello di confidenza di 95)?
Soluzione:
La percentuale di parti conformi osservate: 𝑝ˆ=1520=0,75p^=1520=0,75
Determinazione di Q1 e Q2, per una proporzione p=0,75 e un campione di 20 persone.
Utilizzando il software Ellistat troviamo: Q1=11 (11 dà un 𝛼/2 più vicino a 0,025) e Q2=18
L'intervallo di confidenza della proporzione per una confidenza di 95% è: [𝑄1𝑛;𝑄2𝑛]= [1120;1820]Q1n;Q2n= [1120;1820]
È importante notare che questo metodo fornisce una soluzione accurata, ma può essere più impegnativo dal punto di vista computazionale, soprattutto per campioni di grandi dimensioni, e spesso richiede l'uso di un software statistico per eseguire i calcoli.
Metodo approssimativo (con distribuzione normale):
Per costruire un intervallo di confidenza per una proporzione in una popolazione, si utilizza la distribuzione normale se sono soddisfatte le condizioni del teorema del limite centrale. Se un campione di dimensione n viene prelevato da una popolazione che segue la distribuzione binomiale con parametro p, la proporzione calcolata da questo campione è p^, dato che: 𝑝ˆ=𝑥𝑛p^=xn
Con :
- x: il numero di successi.
- n: dimensione del campione.
La media e la deviazione standard della popolazione sono 𝜇𝑝ˆ=𝑝
𝜎𝑝ˆ=𝑝 (1-𝑝)𝑛‾‾‾‾‾‾‾‾‾√𝜎p^=p (1-p)n
Il teorema della centralità vincolata può essere applicato alla proporzione dei campioni se 𝑛∗𝑝≥5n∗p≥5 e 𝑛∗(1-𝑝)≥5n∗(1-p)≥5. In effetti, questa soluzione è particolarmente utile nel caso di campioni di grandi dimensioni o quando le proporzioni osservate non sono vicine a 1 e 0.
Si può quindi applicare la formula del punteggio Z: 𝜎𝑝ˆ=𝑝 (1-𝑝)𝑛‾‾‾‾‾‾‾‾‾√𝜎p^=p (1-p)n
Se0≤𝜇𝑝ˆ±2𝜎𝑝ˆ≤10≤𝜇p^±2𝜎p^≤1 , possiamo considerare che 𝑝ˆp^ segue approssimativamente una distribuzione normale.