Variabili Dummy

Le variabili dummy sono variabili numeriche utilizzate nell’analisi di regressione per rappresentare dati categorici e che possono assumere solo valori di 0 e 1. Nelle regressioni, ci troviamo molto spesso di fronte dati di tipo qualitativo. Le variabili dummy permettono una ricodifica di essi in un tipo quantitativo e questo rende più facile l’analisi.

Esempi di utilizzo delle variabili dummy

Spiegato nel dettaglio, la regressione lineare è un metodo che possiamo utilizzare per quantificare la relazione tra una o più variabili predittive e una variabile di risposta. Generalmente, si usa la regressione lineare con variabili quantitative. Indicate anche come variabili numeriche, queste sono variabili che rappresentano una quantità misurabile. Alcuni esempi sono:

  • Numero di metri quadrati di una casa
  • Dimensioni della popolazione di una città
  • Età di un individuo

Tuttavia, a volte si desidera utilizzare variabili categoriche come variabili predittive. Si tratta di variabili che assumono nomi o etichette (labels) e possono rientrare in categorie. Alcuni esempi sono:

  • Colore degli occhi (ad esempio “blu”, “verde”, “marrone”)
  • Sesso (ad esempio “maschio”, “femmina”, “altro”)
  • Stato civile (ad es. “sposato”, “celibe”, “divorziato”)

Quando si utilizzano variabili categoriche, non ha senso assegnare semplicemente valori come 1, 2, 3 a valori come “blu”, “verde” e “marrone”, perché non avrebbe senso dire che il verde è due volte più colorato del blu o che il marrone è tre volte più colorato del blu. La soluzione è invece quella di utilizzare variabili dummy. Si tratta di variabili create appositamente per l’analisi di regressione che assumono valore di zero o uno.

Per cosa si usano le variabili dummy?

I casi d’uso più comuni delle variabili dummy sono:

Per rappresentare una proprietà Sì / No

Per indicare se un punto di dati ha una certa proprietà. Ad esempio, una variabile dummy può essere utilizzata per indicare se un partecipante a una sperimentazione farmacologica appartiene al gruppo placebo o al gruppo di trattamento, oppure se è un lavoratore autonomo o dipendente.

Per rappresentare un valore categorico

Un uso correlato dei dummies è quello di indicare a quale di una serie di valori categorici appartiene un punto di dati. Ad esempio, la tipologia di un computer potrebbe essere uno dei seguenti: tower PC, computer desktop compatti, gaming, all-in-one, minicomputer. In questo caso, aggiungeremo cinque variabili dummy all’insieme di dati, una per ciascuno delle cinque tipologie e codificheremo questo vettore di cinque elementi di dummies. In questo modo, il vettore [1, 1, 0, 0, 0] rappresenterebbe quelli a postazione fissa nell’insieme di dati.

Per rappresentare un valore categorico ordinato

Un’estensione dell’uso delle dummies per rappresentare dati categorici è quella in cui le categorie sono ordinate. Facendo riferimento al nostro set di dati delle tipologie di computer, dobbiamo registrare anche le informazioni relative all’ordinamento dei GB di ram: 8, 16, 32.

Per rappresentare un periodo stagionale

È possibile aggiungere una variabile dummy per rappresentare ciascuno dei numerosi periodi stagionali eventualmente contenuti nei dati. Ad esempio, il flusso di traffico attraverso le intersezioni presenta spesso una stagionalità a livello orario (è maggiore nelle ore di punta del mattino e della sera) e settimanale (è minore la domenica). L’aggiunta di variabili dummy ai dati per ciascuno dei due periodi stagionali consentirà di spiegare gran parte della variazione del flusso di traffico attribuibile alle variazioni giornaliere e settimanali.

Per rappresentare gli effetti fissi

Durante la costruzione di modelli di regressione per serie di dati panel, le dummy possono essere utilizzate per rappresentare effetti “specifici dell’unità” e “specifici del tempo”, soprattutto in un modello di regressione a effetti fissi.

Per rappresentare gli effetti del trattamento

In un modello di effetti del trattamento, una variabile dummy può essere utilizzata per rappresentare l’effetto del tempo (cioè l’effetto prima e dopo l’applicazione del trattamento), l’effetto dell’appartenenza al gruppo (se il partecipante ha ricevuto il trattamento o il placebo) e l’effetto dell’interazione tra il tempo e l’appartenenza al gruppo.

Nei disegni a discontinuità di regressione

Immaginiamo un insieme di dati relativi ai tassi di occupazione mensili che contengono un improvviso e forte aumento del tasso di disoccupazione causato da una breve e grave recessione. Per questi dati, un modello di regressione utilizzato per modellare il tasso di disoccupazione può utilizzare una variabile dummy per stimare l’impatto previsto della recessione sul tasso di disoccupazione.

Definire le variabili

La prima cosa da fare quando vogliamo creare delle variabili dummy è stabilire quante ce ne serviranno. Il numero di variabili dummy necessarie per rappresentare una particolare variabile categorica dipende dal numero di valori che la variabile categorica può assumere. Per rappresentare una variabile categorica che può assumere k valori diversi, il ricercatore dovrà definire k – 1 variabili dummy.

Attenzione durante la definizione delle variabili dummy! Un errore comune è quello di definire troppe variabili. Se una variabile categorica può assumere k valori, si è tentati di definire k variabili dummy. Non fatelo. Ricordate che sono necessarie solo k – 1 variabili dummy.

La k-esima variabile dummy è ridondante, non porta alcuna nuova informazione. Crea, inoltre, un grave problema di multicollinearità per l’analisi. L’uso di k variabili dummy quando sono necessarie solo k – 1 variabili dummy è noto come “la trappola delle variabili dummy”.

Uso e codifica delle variabili dummy

Una volta ricodificata una variabile categorica come variabile dummy, questa può essere utilizzata nell’analisi di regressione come qualsiasi altra variabile quantitativa. Facciamo ora un esempio con una variabile dummy a valori multipli. Supponiamo di voler prevedere il reddito utilizzando l’età e lo stato civile con questo set di dati:

RedditoEtàStato civile
45.000 €23Single
48.000 €25Single
54.000 €24Single
57.000 €29Single
65.000 €38Sposato
69.000 €36Single
78.000 €40Sposato
83.000 €59Divorziato
98.000 €56Divorziato
104.000 €64Sposato
107.000 €53Sposato

Per utilizzare lo stato civile come variabile predittiva in un modello di regressione, dobbiamo convertirlo in una variabile dummy. Poiché, in questo momento, è una variabile categorica che può assumere tre valori diversi, tra cui “Single”, “Sposato” o “Divorziato”, dobbiamo creare k – 1 variabili dummy. Nel nostro caso, quindi, k – 1 corrisponde a = 3 – 1 = 2 variabili dummy. Per creare questa variabile dummy, possiamo lasciare che “Single” sia il nostro valore di base, poiché si verifica più spesso e convertire il resto dei valori come segue:

RedditoEtàSposatoDivorziato
45.000 €2300
48.000 €2500
54.000 €2400
57.000 €2900
65.000 €3810
69.000 €3600
78.000 €4010
83.000 €5901
98.000 €5601
104.000 €6410
107.000 €5310

“Età”, “Sposato” e “Divorziato” saranno quindi le nostre variabili predittive in un modello di regressione.

Interpretare i risultati della regressione con le variabili dummy

L’output della regressione è il seguente:

 CoefficientiErrore Standardt Statp-value
Intercetta14276.1210411.501.370.21
Età1471.67354.444.150.00
Sposato2479.759431.260.260.80
Divorziato-8397.4012771.36-0.660.53

La retta di regressione applicata è definita come:

Reddito = 14.276,21 + 1.471,67 * (Età) + 2.479,75 * (Sposato) – 8.397,40 * (Divorziato)

Possiamo usare questa equazione per trovare il reddito stimato di una persona in base alla sua età e al suo stato civile. Ad esempio, si stima che un individuo di 35 anni e sposato abbia un reddito di 68.264 €.

Reddito = 14.276,21 + 1.471,67 * (35) + 2.479,75 * (1) – 8.397,40 * (0) = 68.264 €

Ecco come interpretare i coefficienti di regressione della tabella:

Intercetta: L’intercetta rappresenta il reddito medio di un individuo singolo che ha zero anni. Questo ovviamente non è possibile, quindi non ha senso interpretare l’intercetta da sola in questo particolare modello di regressione.

Età: ogni aumento di età di un anno è associato a un aumento medio del reddito di 1.471,67 €. Poiché il valore di p (.00) è inferiore a .05, l’età è un predittore statisticamente significativo del reddito.

Sposato: un individuo sposato guadagna in media 2.479,75 € in più rispetto a un individuo single. Poiché il valore p (0,80) non è inferiore a .05, questa differenza non è statisticamente significativa.

Divorziato: un divorziato guadagna in media 8.397,40 € in meno di un single. Poiché il p-value (0,53) non è inferiore a .05, questa differenza non è statisticamente significativa.

Conclusione: poiché entrambe le variabili dummy non sono risultate statisticamente significative, possiamo eliminare lo stato civile dal modello perché non sembra aggiungere alcun valore predittivo per il reddito.

Continua a imparare

Torna in alto
Torna su