Correlazione Statistica

correlazione statistica

In statistica, la correlazione è un indice che misura la relazione esistente fra due variabili. Si dice che due variabili A e B sono correlate quando i valori di una variabile A tendono a seguire quelli dell’altra variabile B con una certa regolarità. La relazione che si osserva non è determinata da causa-effetto, ma rappresenta invece la capacità di una variabile di cambiare in funzione dell’altra.

In questo articolo capiremo per cosa si usa la correlazione, i vari tipi, come si calcola e come si differenza dalla regressione.

 

Per cosa si usa la correlazione statistica?

Ogni volta che vogliamo verificare l’associazione tra due o più variabili per determinare se esiste una relazione tra esse, si calcola la correlazione.

Con l’aumento di una dieta ricca di grassi saturi, aumenta anche la probabilità di sviluppare malattie cardio-vascolari?

L’assenza di una laurea è associata ad una percezione di uno stipendio più basso?

Consumare caffè aumenta la nostra intelligenza?

A tutte queste domande si risponde con uno studio di correlazione.  Si utilizza quando vogliamo studiare fenomeni di tipo quantitativo.

 

Tipi di correlazione

Quando parliamo di correlazione, bisogna prendere in considerazione il tipo di relazione esistente tra due variabili e la forma della relazione.

Relazione tra variabili

La relazione può essere lineare o non lineare. Quella lineare si presenta sul piano cartesiano sotto forma di retta, quella non lineare ha un andamento curvilineo (parabola o iperbole).

Relazione lineare tra variabili
Relazione lineare tra variabili
Relazione non lineare tra variabili
Relazione non lineare tra variabili

Forma della relazione

Per quanto riguarda la forma di una relazione, si distinguono entità e direzione.

La direzione può essere:

  • Positiva: chiamata anche concordanza, è il caso in cui le variabili A e B crescono contemporaneamente.
  • Negativa: definita anche discordanza, accade quando una variabile cresce mentre l’altra diminuisce.
  • Nulla: è il caso di incorrelazione, quando le due variabili non hanno la tendenza a crescere o diminuire contemporaneamente.

correlazione statistica

In una rappresentazione cartesiana, quando la relazione è positiva, i dati tendono a distribuirsi su una linea retta crescente in cui x e y crescono contemporaneamente. Nel caso di una relazione negativa i dati tendono invece a distribuirsi su una linea retta decrescente, nella quale mentre la x ha segno positivo ed è quindi crescente, la y diminuisce e viceversa. Infine, quando la relazione è neutra, o nulla, i dati si distribuiscono in ordine casuale in un grafico di dispersione, anche noto come scatter plot.

L’entità invece si riferisce alla forza della relazione esistente tra due variabili. Quanto più i punteggi sono raggruppati attorno ad una retta, tanto più forte è la relazione tra due variabili. Ad esempio, quanto più fa caldo e la temperatura è alta, tanto più si suda. Se i punteggi sono dispersi in maniera uniforme, invece, tra le due variabili non esiste alcuna relazione.

scatter plot se non esiste relazione tra le variabili

 

Coefficiente di correlazione

Il coefficiente di correlazione r si usa per esprimere la relazione esistente tra due variabili, in termini di entità e direzione. Tale coefficiente è standardizzato e può assumere valori che vanno da –1.00 (correlazione perfetta negativa, o inversa) a +1.00 (correlazione perfetta positiva, o diretta). Una correlazione uguale a 0, invece, indica che tra le due variabili non vi è alcuna relazione.

È bene chiarire un concetto importante: la correlazione non studia la causa-effetto tra due variabili, ma solo la relazione che intercorre tra esse. Non sappiamo quindi se sia una a causare l’altra.

Esistono vari tipi di tipi di coefficienti di correlazione che variano in base al tipo di scala della variabile:

  • Per le scale a intervalli o rapporti equivalenti si usa il coefficiente r di Pearson
  • Per le scale ordinali si usano il coefficiente rs di Spearman o il coefficiente tau di Kendall
  • Per le scale categoriali (dicotomiche) si usano il coefficiente rphi o il coefficiente rpbis

Fissata la scelta del coefficiente, per rappresentare la correlazioni per insiemi di variabili possiamo costruire la matrice di correlazione.

 

Calcolo dei coefficienti di correlazione con Python

Se i dati sono salvati all’interno di un DataFrame di Pandas, possiamo calcolare il coefficiente di correlazione di Pearson tra due colonne con l’istruzione

df["col1"].corr(df["col2"], method = "pearson")

Tramite il parametro method possiamo calcolare anche gli indici kendall e spearman introdotti nel paragrafo precedente. Se non specifichiamo nessun valore sarà calcolato il coefficiente di Pearson.

Con l’istruzione

df.corr(method = "pearson")

calcoleremo l’indice di correlazione d’interesse per tutte le coppie di colonne numeriche del DataFrame in questione. Il risultato sarà espresso in forma matriciale.

 

Differenze tra correlazione e regressione

Correlazione e regressione sono entrambe usate per trovare connessioni tra due variabili, misurare le connessioni e fare previsioni. Sono due concetti spesso utilizzati nell’analisi dei dati, ma sono in realtà molto diversi tra loro. Per questo, dedicheremo una parte di questo articolo a spiegarne le differenze ed il loro utilizzo.

La correlazione è un indice statistico, quindi un numero, che varia tra – 1 e +1. Più il suo valore è vicino ai suoi estremi, più la correlazione tra due variabili sarà forte. Il coefficiente più utilizzato è quello di Pearson. Essa studia le associazioni tra variabili quantitative.

La regressione è, invece, un modello statistico che si usa per prevedere il valore di una variabile in base al valore di un’altra variabile. La variabile che si desidera prevedere è chiamata variabile dipendente, mentre quella che si utilizza per prevedere il valore dell’altra, è detta indipendente. Questa forma di analisi stima i coefficienti dell’equazione lineare e implica una o più variabili indipendenti che meglio predicono il valore della variabile della variabile dipendente. La regressione lineare corrisponde ad una linea retta od a una superficie che minimizza le discrepanze tra i valori di output previsti ed effettivi.

Queste due tecniche ci forniscono informazioni profondamente diverse tra la relazione delle variabili in gioco: la correlazione ci dice se e quanto è forte il legame tra A e B, la regressione ci dice invece come una influenza l’altra. Se invece occorre studiare un’unica variabile statistica, puoi approfondire i principali indici da utilizzare in questo articolo.

Si sceglie l’analisi di correlazione quando si vuole riassumere la relazione diretta fra due variabili. Si sceglie invece la regressione per prevedere o spiegare la risposta numerica. Essendo la regressione un’equazione, questo ci permette anche di stimare il valore di una delle due variabili quando conosciamo il valore dell’altra; cosa che non sarebbe possibile attraverso il solo coefficiente di correlazione.

 

Continua a imparare

Torna su