Coefficiente di correlazione lineare di Pearson

coefficiente correlazione di Pearson

Il coefficiente di correlazione lineare di Pearson è un importantissimo indice della statistica bivariata, applicabile cioè a una coppia di variabili statistiche. Le due variabili devono essere entrambe quantitative, espresse cioè tramite dei numeri. Il valore dell’indice ci dà una misura del grado di dipendenza lineare tra le due variabili, ci dice cioè quanto una formula matematica lineare riesce ad approssimare bene i valori di una delle due variabili Y a partire dalla conoscenza dei valori dell’altra variabili X. Una formula matematica si definisce lineare se è della forma

Y = a*X + b

cioè la Y deve essere ottenuta semplicemente moltiplicando e poi sommando alla X due numeri (spesso chiamati anche coefficienti) a e b, anche distinti tra loro.

 

Ambiti di applicazione del coefficiente di Pearson

Come dicevo nel paragrafo introduttivo, questo indice fa riferimento ad una coppia di variabili. Non ha senso la frase

“il coefficiente di Pearson della variabile X è 0.75, mentre quello della variabile Y è 0.2”

in quanto può essere calcolato solo relazionando due variabili tra loro (e non più di due). Ha senso dunque affermare ad esempio che:

“il coefficiente di Pearson della variabile X e Y è 0.75, quello tra le variabili X e Z è 0.82”

Inoltre le due variabili devono essere entrambe quantitative, come ad esempio il peso e l’altezza o il numero di battiti cardiaci al minuto e il numero di ore di esercizio settimanale. Non posso calcolare invece il coefficiente se anche una sola delle due variabili è qualitativa nominale, come ad esempio il colore degli occhi o il sesso, in quel caso potrò comunque ottenere informazioni simili tramite il calcolo di indici statistici diversi come la V di Cramer o l’indice eta quadro.

Nel caso di più di due variabili, ad esempio X,Y e Z, spesso si parla di matrice di correlazione per riportare in modo compatto le correlazioni tra le varie coppie di variabili:

  • X e Y
  • X e Z
  • Y e Z

Spesso si tende ad utilizzare un po’ impropriamente il coefficiente di Pearson anche quando una delle due variabili è qualitativa ordinabile ma è comunque codificata attraverso dei numeri. Ad esempio la variabile “grado di istruzione” potrebbe essere codificata tramite i valori 1, 2, 3 e 4 per rappresentare “licenza media”, “diploma scuola superiore”, “laurea triennale” e “laurea magistrale” e poi utilizzare questi valori per calcolare il coefficiente di Pearson. Per quanto il calcolo sia fattibile e spesso più facile da implementare con i linguaggi di programmazione usati più frequentemente dai Data Analyst, ritengo in questo caso più precisi i risultati dati da altri indici statistici come il coefficiente di Spearman.

 

Sinonimi utilizzi in ambito statistico

Spesso ci si riferisce a questo indice anche con altri nomi, ad esempio:

  • coefficiente di correlazione di Pearson (sotto-intendendo l’aggettivo lineare)
  • coefficiente di correlazione di Bravais-Pearson
  • indice rho (indicato con la lettere greca ρ)

 

Come calcolare il coefficiente di correlazione di Pearson

Il metodo più utilizzato per calcolare il coefficiente di Pearson tra due variabili quantitative X e Y è applicare la formula

formula coefficiente di correlazione di pearsondove:

  • al numeratore è presente la covarianza tra le variabili X e Y
  • al denominatore è presente il prodotto tra la deviazione standard di X e Y

 

Proprietà del coefficiente

Il coefficiente di Pearson è sempre un numero compreso tra i valori -1 e 1 ed è interpretabile così:

  • se è maggiore di zero allora c’è correlazione lineare positiva, cioè al crescere dei valori della variabile X tenderanno a crescere anche i valori della variabile Y (non è detto però assolutamente che ciò accada sempre)
  • se è minore di zero allora c’è correlazione lineare negativa, cioè al crescere dei valori della variabile X tenderanno a crescere anche i valori della variabile Y (non è detto però assolutamente che ciò accada sempre)
  • più il coefficiente di Pearson è vicino a 1 (o specularmente a -1) tanto più forte è la correlazione lineare tra le due variabili, cioè è possibile trovare dei coefficienti a e b per cui la formula a*X + b fornisce delle buone approssimazioni di Y.
  • non esistono soglie assolute, comunque in generale si tende a definire forte la correlazione quando il coefficiente di Pearson è maggiore di 0,7 o, specularmente, minore di -0,7
  • in particolare se è uguale a 1 allora c’è correlazione lineare positiva perfetta, cioè esistono due coefficienti a e b per cui Y = a*X + b per ogni coppia di valori
  • se è uguale a -1 allora c’è correlazione lineare positiva perfetta, cioè esistono due coefficienti a e b per cui Y = a*X + b per ogni coppia di valori
  • se è uguale a 0 allora le due variabili si dicono incorrelate e quindi qualsiasi scelta dei coefficienti a e b porterà ad una formula lineare che non fornisce approssimazioni valide
  • il coefficiente di correlazione di Pearson è simmetrico cioè ρ(X,Y) = ρ(Y,X)

 

Correlazione spuria

Ricorda che anche se otteniamo una correlazione forte, cioè non implica che ci sia per forza un rapporto di causa-effetto delle variabili. Stiamo dicendo solo che esistono due numeri a e b per cui applicando la formula aX+b otteniamo delle buone approssimazioni di Y.  Nessuno ci dice che la presenza di questi coefficienti dipenda dall’esistenza di un rapporto causa-effetto tra le due variabili. Potrebbe ad esempio esistere una terza variabile Z, non considerata nei calcoli, che è la vera causa comune a X e Y. Infatti se

Z = a*X + b e Z= c*Y + d

allora

a*X + b = c*Y + d

e quindi

Y = a/c *X + (b-d)/c

In questi casi parleremo di correlazione spuria. Un classico esempio è dato dall’alta correlazione tra il numero di cicogne e il numero di neonati in una determinata zona. Ma sappiamo benissimo che non sono le cicogne a portare i bambini! Evidentemente è presente una terza variabile (ad esempio se la zona è rurale o cittadina) ad influenzare separatamente le due variabili.

 

Coefficiente di Pearson e statistica inferenziale

Il semplice calcolo del coefficiente di Pearson ci dà informazioni sulle relazioni tra X e Y limitate soltanto al campione analizzato. Per generalizzare le informazioni all’intera popolazione da cui sono state estratte le unità statistiche devo ricorrere alla statistica inferenziale e occorrerà dunque effettuare un test statistico. In particolare occorrerà calcolare la variabile test

variabile test per significatività coefficiente di Pearsonda confrontare con la variabile t di Student con n-2 gradi di libertà.

 

Continua a imparare

Torna su