Classificare le variabili statistiche tramite la scala di misura

Il primo passo da effettuare in un progetto di analisi dei dati o di Machine Learning è individuare la scala di misura delle variabili statistiche che si hanno a disposizione. Da ciò dipenderà la scelta degli indici statistici, delle tipologie di grafici e delle tecniche che potremmo utilizzare per compiere la nostra analisi. La prima fondamentale distinzione di cui parleremo in questo articolo è quella tra variabili qualitative e variabili quantitative.

Variabili qualitative

Semplificando al più possibile il concetto, le variabili qualitative assumono generalmente come valori delle parole, che rappresentano le possibili categorie della variabile. Facciamo degli esempi per essere più chiari, sono variabili qualitative:

  • il colore degli occhi che può assumere i valori nero, verde, azzurro o castano;
  • il sesso che può essere maschio o femmina;
  • il grado di istruzione che può essere licenza media, diploma di scuola superiore o laurea;
  • la classe di un biglietto aereo che può essere prima o seconda.

Non è invece una variabile qualitativa l’altezza che è espressa tramite un numero con una certa unità di misura (ad esempio 170 centimetri).

Ora che ci è chiaro come riconoscere intuitivamente una variabile qualitativa, diamo una definizione un po’ più precisa: si tratta di quelle tipologie di variabili per cui non ha senso effettuare operazioni di somma o moltiplicazione tra i valori. In questo modo, anche se indichiamo il sesso maschile con il numero 1 e il sesso femminile con il numero 2, la variabile resterà comunque qualitativa in quanto non ha nessun senso sommare un maschio e una femmina, anche se si è deciso di esprimere le modalità “artificialmente” con dei numeri.

Le variabili qualitative sono rappresentate generalmente tramite diagrammi a barre o, se sono presenti poche modalità, diagrammi a torta. Nei prossimi paragrafi andremo a studiare due sotto-tipologie.

Variabili qualitative nominali o sconnesse

Si tratta di variabili qualitative per cui non esiste un modo naturale di ordinare le modalità. Riprendendo gli esempi di prima, il colore degli occhi e il sesso sono delle variabili qualitative nominali in quanto non ha senso dire che “maschio è minore di femmina” o che “occhi neri è maggiore di occhi verdi”. Per queste variabili non abbiamo a disposizione tanti indici statistici, possiamo utilizzare sostanzialmente la moda come indice di posizione centrale e il coefficiente di eterogeneità di Gini come indice di variabilità. In caso di analisi bi-variata posso utilizzare l’indice Chi quadrato e V di Cramer.

Variabili qualitative ordinali

Al contrario di quelle nominali, per le variabili ordinali esiste un ordine implicito tra le modalità, ad esempio è lecito ordinare il grado di istruzione in questo modo: licenza media < diploma di scuola superiore < laurea. Non abbiamo comunque informazioni sulle distanze tra le due modalità, non c’è ad esempio un modo naturale di quantificare se la distanza tra licenza media e diploma di scuola superiore sia la stessa che sussiste tra diploma e laurea. Il numero di indici statistici a disposizione per queste variabili aumenta: posso calcolare ad esempio anche il valore mediano e i vari quartili. In caso di analisi bi-variata si utilizza generalmente il coefficiente di Spearman.

Variabili quantitative

Le variabili quantitative sono espresse tramite valori numerici quasi sempre accompagnati da unità di misura. È prassi effettuare operazioni matematiche con i valori di queste variabili. Facciamo qualche esempio:

  • la temperatura
  • l’altezza
  • la concentrazione di globuli rossi nel sangue
  • il numero di figli

Le variabili quantitative sono rappresentate generalmente tramite istogrammi, boxplot e grafici di dispersione. Nei prossimi paragrafi andremo a studiare due sotto-tipologie.

Variabili quantitative discrete

Si tratta di variabili quantitative che possono assumere un elenco ben preciso di valori, senza la possibilità di avere anche tutti gli infiniti numeri decimali tra un valore e l’altro. Facciamo anche in questo caso qualche esempio: il numero di figli è una variabile discreta in quanto si possono avere zero, uno, due o più figli, ma non 1,37. La stessa cosa possiamo dire dei voti scolastici che vanno da 1 a 10 o da 18 a 30. La temperatura invece non è discreta: oggi potrebbero esserci 37,25 gradi mentre domani 37,27.

Variabili quantitative continue

Le variabili quantitative continue possono assumere tutti i valori decimali possibili. Dal punto di vista statistico le due tipologie sono trattate in modo abbastanza simile: nel caso delle variabili continue avrà poco senso calcolare la moda (a meno di non raggruppare le misure in classi), ma in generale potrò utilizzare la media aritmetica, la varianza, la deviazione standard o il coefficiente di correlazione lineare di Pearson per l’analisi bivariata.

Un’altra possibile suddivisione: a intervalli o a rapporti

Lo psicologo Stanley Stevens (tra i principali precursori della teoria delle scale di misura in statistica, puoi approfondire la sua storia in questo link  https://www.treccani.it/enciclopedia/stanley-smith-stevens/) propose di suddividere le variabili quantitative in:

  • a intervalli se la scelta del valore zero è arbitraria, come ad esempio la temperatura misurata in gradi Celsius o il tempo considerato “avanti e dopo Cristo”. In questi casi è legittimo calcolare la differenza tra due valori, ma non il rapporto.
  • a rapporti se il valore zero indica la mancanza di misura, come ad esempio per il peso, l’altezza o la temperatura misurata in gradi Kelvin. In questo caso possiamo calcolare sia le differenze e sia il rapporto.

Casi intermedi: la scala Likert

Nelle applicazioni pratiche è facile trovare delle situazioni intermedie difficilmente classificabili in una specifica scala di misura statistica. Ad esempio, molto spesso le risposte a un questionario possono essere date attraverso la famosa scala Likert (puoi approfondirla qui https://www.ispring.it/blog/scala-likert) che può ad esempio assumere i valori:

  • completamente in disaccordo;
  • parzialmente in disaccordo;
  • parzialmente in accordo;
  • completamente in accordo.

Tendenzialmente si tratterebbe di una variabile qualitativa ordinale, ma osserviamo che le possibili risposte sono in un certo senso “equidistanti tra loro“. Quando si svolgono analisi statistiche sulle risposte date a questionari, si è soliti assegnare alle possibili voci i valori numerici 0, 1, 2 e 3 e calcolarne la media aritmetica; in questi casi stiamo dunque trattando la variabile come quantitativa.

Continua a imparare

Torna in alto
Torna su