Casa / Blog / Analisi dei dati / Test sugli outlier

Test sugli outlier

Tempo di lettura
illustrazione di un outlier

Quando si analizza una serie di dati, a volte ci si imbatte in valori che non sembrano rientrare nella distribuzione normale dei dati. Questi punti sono noti come outlier e, come al solito, non bisogna sempre affidarsi al proprio intuito per capire se un valore è un outlier o meno. Esistono test che possono evidenziarli e software statistici come Ellistat per aiutarvi nei calcoli.

Da un punto di vista statistico, un outlier è un valore che non appartiene alla distribuzione normale dei dati. Può provenire da :

  • Un errore di misurazione o di copiatura (dimenticando la virgola)
  • Una causa particolare, ad esempio un pezzo non lavato prima della misurazione.

Tutti i calcoli statistici che utilizzano le proprietà della distribuzione normale (test statistici, calcoli di capacità, calcoli di fuori tolleranza %) sono molto sensibili alla presenza di outlier, quindi è importante capirne l'origine ed eliminarli prima di utilizzare questi calcoli. Si possono utilizzare anche test statistici non parametrici, che sono molto meno sensibili agli outlier.

Vengono utilizzati due test principali:

Test di Dixon

Per utilizzare il test di Dixon, calcolare il rapporto :

  • b = L'ambito complessivo delle misure (qui 14.1)
  • a = distanza tra la parte sospettata di essere un outlier e il suo vicino più prossimo (qui 8,6)

Il rapporto è calcolato in %.

Questo rapporto viene poi confrontato con la tabella di Dixon:

       
Numero di parti3510162030
Rapporto massimo0.940.720.460.380.340.30

Se il valore è inferiore al rapporto massimo suggerito dalla tabella, allora il valore non è un outlier. In questo caso, il rapporto di 62% per 5 pezzi è inferiore a 72%. Il punto non è quindi un outlier.

Test di Grubb

Per utilizzare il test di Grubb, si calcola innanzitutto :

  • X: la media di tutte le misure
  • S: Deviazione standard di tutte le misure
  • G: distanza tra il valore sospettato di essere un outlier e la media G.

G=refrac{(Valore - X)}{S}

Il valore di G ottenuto viene poi confrontato con un limite G :

G_{limite}=\frac{N-1}{\sqrt{N}}.\sqrt{\frac{t^2_{\frac{a}{N},N-2}{}}{N-2 +t^2{}_{\frac{a}{n}}{,} N-2}}

Se il limite G>G il valore è considerato un outlier e viceversa.