Il coefficiente di correlazione lineare di Pearson è un importantissimo indice della statistica bivariata. Esso sarà applicato dunque a una coppia di variabili statistiche X e Y che devono essere entrambe quantitative, espresse cioè tramite dei numeri. Il valore dell’indice ci fornisce una misura del grado di dipendenza lineare tra le due variabili: ci dice cioè quanto una formula matematica lineare riesce ad approssimare bene i valori della variabile Y a partire dalla conoscenza dei valori della X. Ricordiamo che una formula matematica si definisce lineare se è della forma
Y = a*X + b
cioè la Y deve essere ottenuta semplicemente moltiplicando e poi sommando alla X due numeri (spesso chiamati anche coefficienti o regressori) a e b.
Ambiti di applicazione del coefficiente di Pearson
Il coefficiente di Pearson fa riferimento a una coppia di variabili. Non ha senso la frase
“il coefficiente di Pearson della variabile X è 0.75, mentre quello della variabile Y è 0.2”
in quanto può essere calcolato solo relazionando due variabili tra loro (e non più di due). Ha senso dunque affermare ad esempio che:
“il coefficiente di Pearson della variabile X e Y è 0.75, quello tra le variabili X e Z è 0.82”
Inoltre le due variabili devono essere entrambe quantitative, come ad esempio il peso e l’altezza o il numero di battiti cardiaci al minuto e il numero di ore di esercizio settimanale. Non posso calcolare invece il coefficiente se anche una sola delle due variabili è qualitativa nominale, come ad esempio il colore degli occhi o il sesso, in quel caso potrò comunque ottenere informazioni simili tramite il calcolo di indici statistici diversi come la V di Cramer o l’indice eta quadro.
Nel caso di più di due variabili, ad esempio X, Y e Z, spesso si parla di matrice di correlazione per riportare in modo compatto le correlazioni tra le varie coppie di variabili:
- X e Y
- X e Z
- Y e Z
In alcuni casi si tende a utilizzare un po’ impropriamente il coefficiente di Pearson anche quando una delle due variabili è qualitativa ordinabile, ma codificata attraverso dei numeri. Ad esempio la variabile “grado di istruzione” potrebbe essere codificata tramite i valori 1, 2, 3 e 4 per rappresentare “licenza media”, “diploma scuola superiore”, “laurea triennale” e “laurea magistrale”. In questo caso ritengo più preciso utilizzare altri indici statistici come il coefficiente di Spearman (puoi approfondirlo qui https://laboratoriostatistica.files.wordpress.com/2014/09/spearman.pdf).
Sinonimi e formula del coefficiente di Pearson
Spesso ci si riferisce a questo indice anche con altri nomi, ad esempio:
- coefficiente di correlazione di Pearson (sottintendendo l’aggettivo lineare);
- coefficiente di correlazione di Bravais-Pearson;
- indice rho (indicato con la lettere greca ρ).
Il metodo più utilizzato per calcolarle il coefficiente di Pearson tra due variabili quantitative X e Y è applicare la formula

dove:
- al numeratore è presente la covarianza tra le variabili X e Y
- al denominatore è presente il prodotto tra la deviazione standard di X e Y
Proprietà del coefficiente
Il coefficiente di Pearson è un numero sempre compreso tra i valori -1 e 1 ed è interpretabile così:
- se è maggiore di zero allora c’è correlazione lineare positiva, cioè al crescere dei valori della variabile X spesso avrò anche valori crescenti per la Y;
- se è minore di zero allora c’è correlazione lineare negativa, cioè al crescere dei valori della variabile X spesso avrò valori decrescenti per la Y;
- più il coefficiente di Pearson è vicino a 1 (o specularmente a -1) tanto più forte è la correlazione lineare tra le due variabili, cioè è possibile trovare dei coefficienti a e b per cui la formula a*X + b fornisce delle buone approssimazioni di Y;
- non esistono soglie assolute, comunque in generale si tende a definire forte la correlazione quando il coefficiente di Pearson è maggiore di 0,7 o minore di -0,7;
- in particolare si dice che c’è correlazione lineare positiva perfetta se il coefficiente è uguale a 1: in questo caso esistono due coefficienti a e b per cui Y = a*X + b per ogni coppia di valori;
- analogamente per -1 si parla di correlazione lineare negativa perfetta;
- se è uguale a 0 allora le due variabili si dicono incorrelate e qualsiasi scelta dei coefficienti a e b porterà a una formula lineare che non fornisce approssimazioni valide;
- il coefficiente di correlazione di Pearson è simmetrico cioè ρ(X,Y) = ρ(Y,X).
Correlazione spuria
Ricorda che anche se otteniamo una correlazione forte, cioè non implica che ci sia anche un rapporto di causa-effetto tra le variabili. Stiamo dicendo solo che esistono due numeri a e b per cui applicando la formula a*X+b otteniamo delle buone approssimazioni di Y. Potrebbe ad esempio esistere una terza variabile Z, non considerata nei calcoli, che è la vera causa comune a X e Y. Infatti se
Z = a*X + b e Z= c*Y + d
allora
a*X + b = c*Y + d
e quindi
Y = a/c *X + (b-d)/c
In questi casi parleremo di correlazione spuria. Un classico esempio è dato dall’alta correlazione tra il numero di cicogne e il numero di neonati in una determinata zona. Ma sappiamo benissimo che non sono le cicogne a portare i bambini! Evidentemente è presente una terza variabile (ad esempio se la zona è rurale o cittadina) a influenzare separatamente le due variabili.
Coefficiente di Pearson e statistica inferenziale
Il semplice calcolo del coefficiente di Pearson ci dà informazioni sulle relazioni tra X e Y limitate soltanto al campione analizzato. Per generalizzare le informazioni all’intera popolazione da cui sono state estratte le unità statistiche devo ricorrere alla statistica inferenziale e occorrerà dunque effettuare un test statistico. In particolare dovrò calcolare la variabile test

da confrontare con la variabile t di Student con n-2 gradi di libertà.
Continua a imparare
- Segui la lezione successiva sul coefficiente di Spearman
- Torna all’indice delle lezioni
- Visita la pagina del mio corso online di statistica