Matrice correlazione

Una matrice di correlazione è una tabella che mostra i coefficienti di correlazione tra le variabili. La matrice rappresenta la correlazione tra tutte le possibili coppie di valori presenti in una tabella. Essa è composta da righe e colonne che mostrano le variabili. Ogni cella della tabella contiene il coefficiente di correlazione. Assume generalmente la forma quadrata, in cui il numero di righe e colonne coincide e può essere simmetrica, con le stesse variabili indicate nelle righe e nelle colonne.

Quando si usa una matrice di correlazione?

È uno strumento potente:

  • per riassumere un ampio insieme di dati, con l’obiettivo di identificare e visualizzare i modelli nei dati;
  • come input in altre analisi. Ad esempio, si usano comunemente le matrici di correlazione come input per l’analisi fattoriale esplorativa, l’analisi fattoriale confermativa, i modelli di equazione strutturale e la regressione lineare quando si escludono i valori mancanti a coppie;
  • come diagnostica per il controllo di altre analisi. Ad esempio, nella regressione lineare, un’elevata quantità di correlazioni suggerisce che le stime della regressione lineare non sono affidabili.

In particolare, nella regressione lineare multipla, la matrice di correlazione determina i coefficienti di correlazione tra le variabili indipendenti in un modello.

Come costruire una matrice di correlazione

Come step preliminare alla costruzione di una matrice di correlazione, vi sono: la scelta della statistica di correlazione, la codifica delle variabili, il trattamento dei dati mancanti e la presentazione.

Scelta della statistica di correlazione

La maggior parte delle matrici di correlazione utilizza il coefficiente di correlazione lineare di Pearson (r). È anche comune utilizzare la correlazione di Spearman e la Tau-b di Kendall.  Entrambe sono correlazioni non parametriche e meno suscettibili agli outlier rispetto a r.

Codifica delle variabili

Se i dati di cui disponiamo sono provenienti da un sondaggio, è necessario decidere come codificarli prima di calcolare le correlazioni. Ad esempio, se agli intervistati sono state date le opzioni “Fortemente in disaccordo”, “Alquanto in disaccordo”, “Né in accordo né in disaccordo”, “Alquanto in accordo” e “Fortemente in accordo”, si possono assegnare codici numerici rispettivamente di 1, 2, 3, 4 e 5 (o, matematicamente equivalenti dal punto di vista della correlazione, punteggi di -2, -1, 0, 1 e 2). Tuttavia, sono possibili altre codifiche. I cambiamenti nelle codifiche tendono ad avere un effetto limitato, tranne quando sono estremi.

Trattamento dei dati mancanti

I dati che utilizziamo per calcolare le correlazioni spesso contengono valori mancanti. Questo può essere dovuto al fatto che non abbiamo raccolto i dati o che non conosciamo le risposte. Esistono diverse strategie per trattare i valori mancanti nel calcolo delle matrici di correlazione. La prassi migliore è di solito quella di utilizzare l’imputazione multipla.

Tuttavia, più comunemente si utilizzano valori mancanti a coppie, generalmente noti come correlazioni parziali. Questo comporta il calcolo della correlazione utilizzando tutti i dati non mancanti per le due variabili. In alternativa, alcuni utilizzano l’eliminazione listwise, nota anche come case-wise deletion, che utilizza solo le osservazioni senza dati mancanti. Sia l’eliminazione per coppie che quella per casi presuppongono che i dati manchino in modo del tutto casuale. Per questo motivo l’imputazione multipla è generalmente l’opzione preferibile. Puoi approfondire il tema a questo link https://www.dsu.univr.it/documenti/OccorrenzaIns/matdid/matdid706380.pdf

Presentazione

Quando si presenta una matrice di correlazione, è buona norma tenere in considerazione se mostrare l’intera matrice o solo i bit non ridondanti, se mostrare la significatività statistica, la formattazione dei numeri, se codificare i valori in base alle statistiche di correlazione e riorganizzare le righe e le colonne per rendere più chiari i modelli.

Come creare una matrice di correlazione in Excel

In questa sezione, step by step, vedremo come creare una matrice di correlazione in Excel partendo da un dataset o creandola con dei dati di input. Abbiamo bisogno di utilizzare il componente aggiuntivo Analisi dei Dati,  puoi attivarlo seguendo le operazioni in questa guida ufficiale.

Per questo esempio, considereremo dei dati relativi al mercato azionario di Apple, Amazon, Google e Twitter, i cui valori saranno fittizi.

  • Importa un .CSV con il dataset da analizzare oppure crealo in questo modo: nella riga 1, scrivi l’intestazione con la data e le sigle delle società da analizzare, nella prima colonna, scrivi le date relative al periodo di analisi, compila infine le colonne che seguono con i valori corrispondenti dei prezzi delle azioni. Il risultato dovrebbe essere simile a questo:
esempio dati di partenza per calcolo matrice correlazione
  • Fai clic su Dati -> Analisi dei dati -> Correlazione.
  • In “Intervallo di input”, effettua una selezione col mouse delle celle da considerare e scegli tutta la tabella
  • In “Dati raggruppati per” seleziona l’opzione “Colonne
  • Spunta l’opzione “Etichette nella prima riga” (selezione attiva)
  • Scegli l’opzione di output desiderata, ovvero, la posizione del foglio di calcolo in cui apparirà la matrice di correlazione
  • Clicca su OK.

Ecco fatto, hai creato la tua prima matrice di correlazione:

matrice correlazione excel

In questo articolo abbiamo approfondito altri importanti indici statistici.

Continua a imparare

Scroll to Top
Torna su