In statistica i quartili sono degli indici di posizione che dividono un insieme di dati ordinati in quattro parti uguali. In questo articolo, definiremo che cosa sono e come si calcolano manualmente e con Excel e Fogli Google. Inoltre, vedremo il loro utilizzo pratico in due esempi.
Che cosa sono i quantili
Per conoscere la posizione che un valore occupa all’interno di una distribuzione di frequenza vengono utilizzati i quantili, che si suddividono in:
- quartili
- decili
- percentili
Al fine di utilizzare i quantili, è essere necessario che la distribuzione di valori sia ordinata, ovvero, la nostra variabile deve essere misurata su una scala ordinale. A questo punto, definiamo quartili quei valori tali per cui la distribuzione viene suddivisa in quattro parti uguali:
- Quartile Q1 o inferiore: il 25% dei valori è inferiore o uguale a Q1
- Quartile Q2 o mediano: il 50% dei valori è inferiore o uguale a Q2
- Quartile Q3 o superiore: il 75% dei valori è inferiore o uguale a Q3
Ecco la rappresentazione grafica dei quartili e la loro collocazione su una distribuzione di valori:
Un caso d’uso dei quartili
Supponiamo di essere dei data analyst e di lavorare per un’e-commerce. Ci viene chiesto di investigare meglio sui nostri clienti e di capire qual è stata la loro spesa in tutto l’arco dei mesi estivi e di collocarli in una fascia di cluster di acquisto. Che cosa significa? Significa che, per il mio intero insieme di dati, voglio stimare le fasce medie di acquisto dei miei utenti: fascia bassa, medio-bassa, medio-alta e fascia alta. Da che range di valori parte una certa fascia?
La domanda che dobbiamo porci è quindi: come si posizionano gli acquisti nel mio set di dati? Questa analisi mi permetterà di conoscere meglio chi sono i miei clienti e targetizzare meglio offerte commerciali dedicate a loro, quindi in pratica, migliorare il mio business. Per farlo, dobbiamo dividere il nostro set di dati in quattro parti uguali, utilizzando proprio i quartili. Vediamo come.
Come calcolare i quartili con Excel
Per prima cosa, creiamo un istogramma per rappresentare graficamente i dati a nostra disposizione. Sono ovviamente in ordine cronologico, quindi in ordine sparso.
Il primo step è ordinarli dal valore minore a quello maggiore. Per farlo su Excel dobbiamo selezionare le celle corrispondenti o tutte le celle e poi usare la funzione “sort da A -> Z”. In questo modo, l’ordinamento sarà crescente. Inoltre, così facendo, vedremo subito qual è la stata la spesa minima e quella massima effettuate nel time-frame dei mesi estivi. Questo potrebbe esserci utile ai fini della nostra analisi.
A questo punto, se stiamo lavorando con Excel, per conoscere dove il percentile taglia la nostra distribuzione di frequenza possiamo usare la funzione QUARTILE, in questo modo. La funzione QUARTILE si dichiara come:
=QUARTILE(intervallo o matrice, quarto)
dove:
- l’uguale chiede al programma di inserire una funzione;
- QUARTILE è la funzione che il programma deve elaborare;
- (intervallo o matrice) seleziona l’intervallo o la tabella su cui elaborare l’operazione;
- quarto corrisponde al quartile. È quindi un numero che va da 1 a 4, dove 4 restituirà il valore massimo della distribuzione.
Sul nostro esempio, la sintassi apparirà così
=QUARTILE(A1:A14,1)
Quartile | Valore in € corrispondente |
Q1 | 36.67 € |
Q2 | 60.43 € |
Q3 | 97.87 € |
In questo modo, abbiamo svolto una segmentazione di cluster per AOV (average order value), che è la base di partenza per le analisi di mercato e di vendita. Tramite la funzione ESC.QUARTILE descritta in questa pagina https://support.microsoft.com/it-it/office/esc-quartile-funzione-esc-quartile-5a355b7a-840b-4a01-b0f1-f538c2864cad otterremo dei risultati molto simili, utilizzando una formula leggermente diversa per il calcolo dei quartili (in generale non ce n’è una riconosciuta universalmente corretta).
Come calcolare i quartili manualmente
Se invece, vogliamo calcolare manualmente i quartili, gli step che dobbiamo seguire sono i seguenti:
- Ordinare i dati in ordine crescente
- Calcolare le frequenze cumulate
- Calcolare la posizione del quartile
- Data la distribuzione, si va a individuare il valore corrispondente alla posizione trovata
Procediamo per gradi, con un esempio. Vogliamo conoscere il valore dei quartili di una classe di venti studenti delle superiori al compito di matematica. I voti variano da 2, il voto minimo, a 10, il voto massimo. I voti conseguiti dai venti studenti sono:
6,7,8,5,4,4,6,7,8,3,5,5,6,8,9,4,1,7,6,5
Per prima cosa, ordiniamo i valori in ordine crescente in una tabella:
Punteggi |
1 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
A questo punto, calcoliamo le frequenze assolute e le frequenze cumulate e aggiungiamole alla nostra tabella, come segue.
Reminder! La frequenza assoluta corrisponde al numero di volte in cui troviamo un determinato valore in un set di dati. La frequenza cumulata è la somma della frequenza assoluta dell’elemento preso in esame e della frequenza cumulata dell’elemento che lo precede.
Punteggi | Frequenze assolute | Frequenze cumulate |
1 | 1 | 1 |
3 | 1 | 2 |
4 | 3 | 5 |
5 | 4 | 9 |
6 | 4 | 13 |
7 | 3 | 16 |
8 | 3 | 19 |
9 | 1 | 20 |
TOTALE | 20 |
Ora calcoliamo i quartili. Per farlo, la formula necessaria è:
K = N*P
Dove N corrisponde al numero di osservazioni, mentre P corrisponde alla posizione del quartile in decimale
Nel nostro esempio, N = 20 perché sono venti i punteggi che dobbiamo esaminare, mentre P corrisponde rispettivamente a
- P1 = 0.25
- P2 = 0.5 (essa coincide con la mediana)
- P3 = 0.75
Una volta trovato k, dovremmo confrontarlo con la posizione più vicina per eccesso alle frequenze cumulate di riferimento. E nel farlo, potremmo incorrere in due situazioni possibili:
- Se k è un numero intero, quella è la posizione corretta e accade quando n è un multiplo di 4
- Se k non è intero, si prende la posizione successiva, quindi si arrotonda per eccesso.
Calcoliamo quindi il primo quartile per il nostro esempio.
20 * 0.25 = 5
Cerchiamo il valore 5 nelle frequenze cumulate e vediamo che corrisponde alla terza riga della tabella. Il primo quartile è il valore associato alla posizione trovata, sarà dunque il punteggio 4.
Calcoliamo ora il secondo quartile (la mediana) per il nostro esempio.
20 * 0.5 = 10
Qui non troviamo il numero 10 nelle frequenze cumulate. Arrotondiamo quindi per eccesso e scegliamo 13. Il secondo quartile sarà dunque 6.
Calcoliamo, infine, il terzo quartile.
20 * 0.75= 15
Come per il secondo quartile, non troviamo il numero 15 nelle frequenze cumulate. Scegliamo quindi il punto 16, arrotondando per eccesso. Il terzo quartile sarà dunque 7.
Continua a imparare
- Studiamo la media ponderata
- Cos’è e come calcolare l’alpha di Cronbach
- Come interpretare il p-value