Gli outlier o valori anomali sono dei particolari valori assunti da una variabile statistica che risultano essere molto differenti dal resto della distribuzione. Facciamo un esempio: se una variabile assume i valori 6, 7, 6, 5, 71 è facile etichettare il valore 71 come un outlier. Tuttavia la situazione non è sempre così chiara, in questo articolo impareremo dunque a utilizzare alcune delle tecniche statistiche più famose per l’individuazione degli outlier.
Perché è importante trovare gli outlier
Individuare gli outlier in una distribuzione statistica è un’attività molto importante che può avere molte applicazioni pratiche. In alcuni casi gli outlier derivano da semplici errori manuali di misurazione o di imputazione dei dati. Ad esempio all’interno delle variabile altezza potrebbe essere presente un valore completamente anomalo perché riportato in un’unita di misura differente rispetto alle altre misurazioni. In altri casi potrebbe essere stato digitato uno zero di troppo, oppure banalmente ci si è dimenticati del separatore dei decimali. Individuare queste anomalie è fondamentale in quanto questi errori potrebbero avrebbero un terribile impatto sull’accuratezza di algoritmi statistici come la regressione.
In altri casi invece gli outlier sono dei “valori reali” che non derivano da errori. Proprio per la loro particolarità, individuarli può essere molto utile per verificare le condizioni particolari che portano alla generazione di queste casistiche. Supponiamo ad esempio di registrare i valori di un determinato macchinario industriale, individuare dei picchi potrebbe essere fondamentale per capire quali sono le condizioni di stress per cui si verificano le anomalie.
Come trovare gli outlier tramite i quartili
Uno degli approcci più utilizzati per trovare gli outlier di una variabile quantitativa richiede preliminarmente il calcolo del primo e del terzo quartile della distribuzione. Se non sai come calcolare i quartili, puoi leggero questo mio articolo https://www.yimp.it/quartili/
A questo punto possiamo individuare gli outlier come tutti quei valori che rispettano una di queste due condizioni:
- sono maggiori del valore ottenuto aggiungendo al terzo quartile il prodotto tra 1.5 e la differenza tra terzo quartile e primo quartile;
- sono minori del valore ottenuto sottraendo al primo quartile il prodotto tra 1.5 e la differenza tra terzo quartile e primo quartile.
In formule avremo:

Il valore 1.5 non è un numero fisso, in base alle applicazioni posso considerare anche coefficienti maggiori o minori.
Approccio tramite la normalizzazione dei dati
Un secondo approccio prevede di normalizzare la variabile tramite il calcolo degli z-score o “valori normalizzati“ (https://datascience.eu/it/matematica-e-statistica/cose-uno-z-score/). A dispetto della nomenclatura che può essere un po’ complessa, per trovare gli z-score ci basterà calcolare preliminarmente la media e la deviazione standard della variabile e in seguito trasformare ogni misurazione con la formula
X’i = [ Xi – Media(X) ] / DevSt(X)
Sottraiamo dunque la media a ogni valore e poi dividiamo il risultato per la deviazione standard. Una regola empirica per trovare gli outlier consiste nel considerare tutti quei valori il cui z-score è minore di -3 o maggiore di 3. Anche in questo caso i valori -3 e 3 non sono fissi, ma possono essere più o meno incrementati in base alla casistica particolare.
Metodi grafici
Gli outlier possono essere individuati anche graficamente disegnando tramite un software come Excel il boxplot della variabile. Questo grafico infatti rappresenterà i valori considerati outlier con dei cerchi.

A volte si parla di outlier anche nell’analisi bivariata in cui studiamo la relazione tra due distinte variabili quantitative. Spesso può essere utile analizzare il diagramma a dispersione che rappresenta le due variabili come nella figura in basso.

Nel punto indicato dalla freccia non sono anomali i valori delle variabili X o Y considerati singolarmente, ma la combinazione dei due dati per la stessa unità statistica.
Tecniche evolute di Machine Learning: isolation forest
Le isolation forest sono una tecnica di Machine Learning non supervisionato che individua gli outlier tramite gli stessi calcoli statistici che sono alla base degli algoritmi di costruzione degli alberi decisionali. Per quanto la teoria è abbastanza complicata, alcune librerie come scikit-learn permettono di implementare facilmente questi algoritmi con il linguaggio Python (https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html)
Continua a imparare
- Segui la lezione successiva sulla varianza
- Torna all’indice delle lezioni
- Visita la pagina del mio corso online di statistica