Coefficiente di correlazione lineare di Pearson: cos’è, come calcolarlo e interpretarlo

Il coefficiente di correlazione lineare di Pearson è un importantissimo indice della statistica bivariata. Esso sarà applicato dunque a una coppia di variabili statistiche X e Y che devono essere entrambe quantitative, espresse cioè tramite dei numeri. Il valore dell’indice ci fornisce una misura del grado di dipendenza lineare tra le due variabili: ci dice cioè quanto una formula matematica lineare riesce ad approssimare bene i valori della variabile Y a partire dalla conoscenza dei valori della X. Ricordiamo che una formula matematica si definisce lineare se è della forma

Y = a*X + b

cioè la Y deve essere ottenuta semplicemente moltiplicando e poi sommando alla X due numeri (spesso chiamati anche coefficienti o regressori) a e b.

Ambiti di applicazione del coefficiente di Pearson

Il coefficiente di Pearson fa riferimento a una coppia di variabili. Non ha senso la frase

“il coefficiente di Pearson della variabile X è 0.75, mentre quello della variabile Y è 0.2”

in quanto può essere calcolato solo relazionando due variabili tra loro (e non più di due). Ha senso dunque affermare ad esempio che:

“il coefficiente di Pearson della variabile X e Y è 0.75, quello tra le variabili X e Z è 0.82”

Inoltre le due variabili devono essere entrambe quantitative, come ad esempio il peso e l’altezza o il numero di battiti cardiaci al minuto e il numero di ore di esercizio settimanale. Non posso calcolare invece il coefficiente se anche una sola delle due variabili è qualitativa nominale, come ad esempio il colore degli occhi o il sesso, in quel caso potrò comunque ottenere informazioni simili tramite il calcolo di indici statistici diversi come la V di Cramer o l’indice eta quadro.

Nel caso di più di due variabili, ad esempio X, Y e Z, spesso si parla di matrice di correlazione per riportare in modo compatto le correlazioni tra le varie coppie di variabili:

  • X e Y
  • X e Z
  • Y e Z

In alcuni casi si tende a utilizzare un po’ impropriamente il coefficiente di Pearson anche quando una delle due variabili è qualitativa ordinabile, ma codificata attraverso dei numeri. Ad esempio la variabile “grado di istruzione” potrebbe essere codificata tramite i valori 1, 2, 3 e 4 per rappresentare “licenza media”, “diploma scuola superiore”, “laurea triennale” e “laurea magistrale”. In questo caso ritengo più preciso utilizzare altri indici statistici come il coefficiente di Spearman (puoi approfondirlo qui https://laboratoriostatistica.files.wordpress.com/2014/09/spearman.pdf).

Sinonimi e formula del coefficiente di Pearson

Spesso ci si riferisce a questo indice anche con altri nomi, ad esempio:

  • coefficiente di correlazione di Pearson (sottintendendo l’aggettivo lineare);
  • coefficiente di correlazione di Bravais-Pearson;
  • indice rho (indicato con la lettere greca ρ).

Il metodo più utilizzato per calcolarle il coefficiente di Pearson tra due variabili quantitative X e Y è applicare la formula

formula coefficiente di correlazione di pearson

dove:

  • al numeratore è presente la covarianza tra le variabili X e Y
  • al denominatore è presente il prodotto tra la deviazione standard di X e Y

Proprietà del coefficiente

Il coefficiente di Pearson è un numero sempre compreso tra i valori -1 e 1 ed è interpretabile così:

  • se è maggiore di zero allora c’è correlazione lineare positiva, cioè al crescere dei valori della variabile X spesso avrò anche valori crescenti per la Y;
  • se è minore di zero allora c’è correlazione lineare negativa, cioè al crescere dei valori della variabile X spesso avrò valori decrescenti per la Y;
  • più il coefficiente di Pearson è vicino a 1 (o specularmente a -1) tanto più forte è la correlazione lineare tra le due variabili, cioè è possibile trovare dei coefficienti a e b per cui la formula a*X + b fornisce delle buone approssimazioni di Y;
  • non esistono soglie assolute, comunque in generale si tende a definire forte la correlazione quando il coefficiente di Pearson è maggiore di 0,7 o minore di -0,7;
  • in particolare si dice che c’è correlazione lineare positiva perfetta se il coefficiente è uguale a 1: in questo caso esistono due coefficienti a e b per cui Y = a*X + b per ogni coppia di valori;
  • analogamente per -1 si parla di correlazione lineare negativa perfetta;
  • se è uguale a 0 allora le due variabili si dicono incorrelate e qualsiasi scelta dei coefficienti a e b porterà a una formula lineare che non fornisce approssimazioni valide;
  • il coefficiente di correlazione di Pearson è simmetrico cioè ρ(X,Y) = ρ(Y,X).

Correlazione spuria

Ricorda che anche se otteniamo una correlazione forte, cioè non implica che ci sia anche un rapporto di causa-effetto tra le variabili. Stiamo dicendo solo che esistono due numeri a e b per cui applicando la formula a*X+b otteniamo delle buone approssimazioni di Y. Potrebbe ad esempio esistere una terza variabile Z, non considerata nei calcoli, che è la vera causa comune a X e Y. Infatti se

Z = a*X + b e Z= c*Y + d

allora

a*X + b = c*Y + d

e quindi

Y = a/c *X + (b-d)/c

In questi casi parleremo di correlazione spuria. Un classico esempio è dato dall’alta correlazione tra il numero di cicogne e il numero di neonati in una determinata zona. Ma sappiamo benissimo che non sono le cicogne a portare i bambini! Evidentemente è presente una terza variabile (ad esempio se la zona è rurale o cittadina) a influenzare separatamente le due variabili.

Coefficiente di Pearson e statistica inferenziale

Il semplice calcolo del coefficiente di Pearson ci dà informazioni sulle relazioni tra X e Y limitate soltanto al campione analizzato. Per generalizzare le informazioni all’intera popolazione da cui sono state estratte le unità statistiche devo ricorrere alla statistica inferenziale e occorrerà dunque effettuare un test statistico. In particolare dovrò calcolare la variabile test

variabile test per significatività coefficiente di Pearson

da confrontare con la variabile t di Student con n-2 gradi di libertà.

Continua a imparare

Torna in alto
Torna su