Coefficiente di determinazione R quadro

Il coefficiente di determinazione R quadro è un indice statistico legato alle tecniche di regressione dei dati. Molto spesso vogliamo cercare una formula matematica che permetta di trovare un’approssimazione del valore di una variabile target a partire dai valori di altre variabili di input dette regressori. Il coefficiente R quadro è uno dei modi possibili per valutare quanto queste approssimazioni sono accurate e quindi quale sarà il valore predittivo generale del modello di regressione.

Potreste trovare diverse definizioni di questo coefficiente, più o meno diverse da quella descritta in questo articolo. Qui parleremo dell’approccio più comunemente usato all’interno dei contesti di statistica per il Machine Learning.

Calcolo del coefficiente di determinazione

Il modello più semplice di regressione per predire una variabile target Y a partire da una serie di dati raccolti in cui è presente otre alla Y anche altre variabili numeriche X1,X2…, Xk (detti regressori) consiste nell’ignorare i dati di tutte le variabili Xi e calcolare semplicemente la media aritmetica della variabile Y. In questo modo, per ogni nuova unità statistica, prediremo come valore di Y proprio la media dei valori ottenuta nei dati raccolti.

Capiamo subito che questo algoritmo non potrà essere davvero preciso, ma rappresenta sicuramente un benchmark minimo con cui confrontare un modello di regressione più complicato, creato combinando tramite un processo matematico i valori delle variabili X1,X2

Se chiamiamo Y’ la predizione, il coefficiente R quadro è dato da questa formula

fomula coefficiente-determinazione r quadro

A sinistra del segno “meno” abbiamo il numero uno, mentre a destra abbiamo una frazione con:

  • al numeratore la somma dei quadrati degli errori generati dal nostro modello
  • al denominatore la somma dei quadrati degli errori generati dal modello banale che utilizza sempre la media.

Nel prossimo paragrafo vedremo come interpretare questo numero.

Interpretazione del coefficiente di determinazione

Il coefficiente R quadro è un numero minore o uguale di 1. In particolare può assumere anche valori negativi, a dispetto del nome. Infatti, facendo riferimento alla formula in alto:

  • quando il numeratore è maggiore del denominatore la frazione sarà maggiore di 1, di conseguenza il coefficiente R quadro sarà minore di zero. Questo vuol dire che gli errori generati dal nostro modello sono maggiori di quelli generati dalla media e che quindi il nostro modello è battuto persino da quello banale della media;
  • quando il numeratore è minore del denominatore la frazione sarà minore di 1, di conseguenza il coefficiente R quadro sarà maggiore di zero. Questo vuol dire che gli errori generati dal nostro modello sono minori di quelli generati dalla media e che quindi il nostro modello batte quello banale;
  • in particolare se il nostro modello approssima perfettamente tutte le Yi, allora il numeratore sarà zero e quindi il coefficiente varrà il massimo valore possibile 1. In generale valori vicini a 1 ci danno indicazione del fatto che le approssimazioni sono abbastanza accurate. Tuttavia per un’analisi affidabile bisogna quantomeno associare al calcolo dell’R quadro anche l’analisi dei residui e il calcolo dell’errore assoluto medio (qui trovi un approfondimento http://wpage.unina.it/p.maffettone/Didattica/Mads/Lezione7.pdf)

R quadro nel caso della regressione lineare semplice

Il caso di regressione più semplice e studiato è la regressione lineare semplice. In questo problema sono presenti solo due variabili (da ciò l’aggettivo semplice): quella indipendente X1 che useremo per predire l’unica dipendente Y. Inoltre ci limitiamo a studiare i modelli lineari, quelli cioè in cui cerchiamo di approssimare la Y considerando soltanto equazioni matematiche del tipo

a*X1+ b

dove a e b sono dei coefficienti numerici. In questo caso si può dimostrare che una scelta appropriata dei coefficienti a e b è la seguente:

  • a = Covarianza (X,Y) / Varianza(X)
  • b = Media(Y) – a * Media(X)

In questo caso (e solo in questo caso) otteniamo un risultato molto particolare! Il coefficiente di determinazione R quadro risulta equivalente al coefficiente di correlazione lineare di Pearson elevato al quadrato.

R quadro adjusted o R quadro corretto

Il coefficiente R quadro tende ad assumere valori più grandi quando aumentiamo il numero di variabili Xutilizzate per predire la Y. In questo caso potrebbe non esserci anche una reale crescita del valore predittivo del modello. Per questo spesso si moltiplica l’R quadro per un coefficiente di correzione che tende a penalizzare l’aggiunta di nuove variabili. Ecco la formula:

formula r quadro adjusted

dove N è il numero di unità statistiche considerate, mentre K il numero di variabili utilizzate. In questo modo possiamo valutare se l’aggiunta di una variabile incrementa a tal punto l’R quadro in modo da superare la penalizzazione implicita nella formula.

Continua a imparare

Torna in alto
Torna su