La regressione è una tecnica statistica che ha come fine la costruzione di una formula matematica (detto anche modello) che permetta di predire il valore di una variabile quantitativa Y a partire da una o più variabili quantitative X1, X2,…, Xk. Ovviamente, nelle applicazioni reali questa predizione non potrà essere in generale accurata al 100%, tranne che in alcuni casi banali. Sarà compito di chi si occupa dell’analisi dei dati trovare la miglior formula possibile e valutarne le capacità di predizione.
In questo articolo ci soffermeremo in particolare sulla regressione lineare, il modello in generale più famoso ma nel quale ci “accontentiamo” di cercare formule matematiche con una struttura abbastanza semplice, composte da moltiplicazioni e addizioni.
- Differenza tra regressione semplice e multipla
- Differenza tra regressione lineare e regressione non lineare
- Notazione per i coefficienti di regressione
- Calcolo dei coefficienti di regressione lineare e metodo OLS
- Risultati del metodo OLS per la regressione lineare semplice
- Valutazione dei risultati ottenuti della regressione
- Continua a imparare
Differenza tra regressione semplice e multipla
La prima distinzione che occorre fare è quella tra la regressione semplice e la regressione multipla:
- nel caso della regressione semplice abbiamo una sola variabile X1 utilizzabile per predire la Y;
- nel caso della regressione multipla abbiamo più di una variabile X1, X2,…, Xk utilizzabili per predire la Y;
I modelli di regressione multipli sono per forza di cose un po’ più complicati dal punto di vista tecnico, per quanto i concetti di base sono i medesimi per entrambi i casi.
Differenza tra regressione lineare e regressione non lineare
Nella regressione lineare, per approssimare la Y consideriamo dei valori Y’ ricavabili esclusivamente con formule matematiche di questo tipo:
Y’ = w0 + w1X1 + w2X2 + w3X3 + … + wkXk
dove w0, w1 … wk sono dei numeri reali detti coefficienti di regressione. Come potete vedere, nella formula non sono presenti operazioni diverse da moltiplicazioni e addizioni. Ad esempio non ci sono logaritmi, elevamenti al quadrato, radici, eccetera. Cercare una formula che contenga anche soltanto una di queste operazioni fa diventare il problema non lineare.
Un problema di regressione lineare consisterà dunque nel cercare i migliori coefficienti w0, w1… wk per poi valutare l’accuratezza delle predizioni ottenute con svariate tecniche. Alcuni di questi coefficienti potrebbero essere anche zero per indicare che la particolare variabile associata non ha nessun impatto sulla predizione della Y.
Ovviamente in molti casi, nonostante gli sforzi effettuati, la natura del problema e i dati a disposizione sono tali che nessuna combinazione di coefficienti porterà a delle approssimazioni adeguate. In queste situazioni occorrerà dunque passare a una tecnica non lineare. Tuttavia non dobbiamo sottovalutare la potenza dei modelli lineare che, nonostante la loro semplicità, riescono spesso a dare dei risultati soddisfacenti.
Notazione per i coefficienti di regressione
Soprattutto negli articoli di statistica in italiano, troverete i coefficienti di regressione indicati con la lettera b, ad esempio b0, b1 … bk. Tuttavia, soprattutto nell’ambito del Machine Learning viene utilizzata frequentemente la lettera w come abbreviazione di weights (pesi).
Calcolo dei coefficienti di regressione lineare e metodo OLS
Esistono varie tecniche per calcolare coefficienti di regressione lineare che portano a delle buone approssimazioni. Una delle più utilizzate e che spesso dà i risultati migliori si chiama Metodo OLS e consiste nel prendere come coefficienti quelli che minimizzano il valore della seguente funzione in più variabili, dove n è il numero di unità statistiche a disposizione, mentre k il numero di regressori:

Analizziamo meglio la funzione di cui vogliamo calcolare il minimo: tra le parentesi abbiamo semplicemente la differenza tra il valore reale della Y e quello predetto Y’ tramite una formula lineare dipendente dai coefficienti nel dominio della funzione. Queste differenze, a cui generalmente ci si riferisce con il termine residui, sono elevate al quadrato (per evitare che si compensino errori per difetto e per eccesso) e poi sono sommate per tutte le unità statistiche a disposizione.
Si tratta dunque di una funzione che ci dà una misura di quanto sia l’errore del nostro modello. Trovare l’elenco di coefficienti per cui questo errore è il minimo possibile sicuramente può essere un ottima strategia (in particolare, sotto alcune ipotesi statistiche, si può dimostrare che questa è la migliore tecnica possibile tra quelle lineari, per una trattazione più completa potete approfondire su queste dispense https://www.unife.it/economia/lm.economia/insegnamenti/econometria/materiale-prof-nicolli-a-a-2013-2014/materiale-didattico/teoria)
Risultati del metodo OLS per la regressione lineare semplice
Non svolgiamo in questo articolo tutti i calcoli necessari per trovare il minimo della funzione del metodo OLS. Vi riporto però le famose formule ottenibili nel caso della regressione lineare semplice. Se abbiamo una sola variabile X1 e quindi due soli coefficiente w0 e w1, allora la scelta che minimizza la funzione del metodo OLS è data da
w1 = Covarianza(X1 , Y) / DevStandard(X1)
w0 = Media(Y) – w1 * Media(X1)
Valutazione dei risultati ottenuti della regressione
Esistono varie verifiche da effettuare per valutare le approssimazioni ottenute tramite un modello di regressione, alcune delle quali sono eseguibili a priori, anche prima del calcolo dei coefficienti:
- l’analisi dei grafici di dispersione tra la variabile target Y e i vari regressori X1, X2, per individuare la presenza o meno di relazioni lineare tra le variabili. In questo caso infatti i grafici di dispersione si disporranno lungo una retta;
- la verifica dell’indipendenza tra le varie unità statistica: i valori delle X e delle Y in un’unità statistica non devono essere influenzati dalle altre unità, come ad esempio potrebbe succedere se si trattasse di rilevazioni di uno stesso fenomeno fatte in più giorni consecutivi;
- la presenza di multi-collinearità tra i vari regressori X1, X2, generabile ad esempio dopo la creazione di variabili dummy;
- il calcolo del coefficiente di determinazione di cui parlo in questo articolo https://www.yimp.it/coefficiente-di-determinazione-r-quadro;
- l’analisi dei residui;
- il calcolo di altri coefficienti come l’errore assoluto medio delle predizioni.
Continua a imparare
- Segui la lezione successiva sul coefficiente di determinazione R quadro
- Torna all’indice delle lezioni
- Visita la pagina del mio corso online di statistica