Quando si analizza una serie di dati, a volte ci si imbatte in valori che non sembrano rientrare nella distribuzione normale dei dati. Questi punti sono noti come outlier e, come al solito, non bisogna sempre affidarsi al proprio intuito per capire se un valore è un outlier o meno. Esistono test che possono evidenziarli e software statistici come Ellistat per aiutarvi nei calcoli.
Da un punto di vista statistico, un outlier è un valore che non appartiene alla distribuzione normale dei dati. Può provenire da :
- Un errore di misurazione o di copiatura (dimenticando la virgola)
- Una causa particolare, ad esempio un pezzo non lavato prima della misurazione.
Tutti i calcoli statistici che utilizzano le proprietà della distribuzione normale (test statistici, calcoli di capacità, calcoli di fuori tolleranza %) sono molto sensibili alla presenza di outlier, quindi è importante capirne l'origine ed eliminarli prima di utilizzare questi calcoli. Si possono utilizzare anche test statistici non parametrici, che sono molto meno sensibili agli outlier.
Vengono utilizzati due test principali:
- Test di Dixon : molto interessante quando il numero di dati è basso (<30)
- Test di Grubbs può essere utilizzato in tutti i casi.
Test di Dixon
Per utilizzare il test di Dixon, calcolare il rapporto :
- b = L'ambito complessivo delle misure (qui 14.1)
- a = distanza tra la parte sospettata di essere un outlier e il suo vicino più prossimo (qui 8,6)
Il rapporto è calcolato in %.
Questo rapporto viene poi confrontato con la tabella di Dixon:
Numero di parti | 3 | 5 | 10 | 16 | 20 | 30 |
Rapporto massimo | 0.94 | 0.72 | 0.46 | 0.38 | 0.34 | 0.30 |
Se il valore è inferiore al rapporto massimo suggerito dalla tabella, allora il valore non è un outlier. In questo caso, il rapporto di 62% per 5 pezzi è inferiore a 72%. Il punto non è quindi un outlier.
Test di Grubb
Per utilizzare il test di Grubb, si calcola innanzitutto :
- X: la media di tutte le misure
- S: Deviazione standard di tutte le misure
- G: distanza tra il valore sospettato di essere un outlier e la media G.
G=refrac{(Valore - X)}{S}
Il valore di G ottenuto viene poi confrontato con un limite G :
G_{limite}=\frac{N-1}{\sqrt{N}}.\sqrt{\frac{t^2_{\frac{a}{N},N-2}{}}{N-2 +t^2{}_{\frac{a}{n}}{,} N-2}}
Se il limite G>G il valore è considerato un outlier e viceversa.