Con il termine Anova si intende una serie di tecniche statistiche che permettono di studiare le relazioni tra una variabile statistica quantitativa dipendente e una o più variabili qualitative indipendenti. Il nome Anova deriva dall’inglese Anlaysis of Variance e fa riferimento al fatto che tali tecniche sono basate principalmente su calcoli inerenti l’indicatore statistica della varianza o altri affini.
Anova e regressione: differenze e analogie
Per quanto le due tecniche siano sostanzialmente diverse nei metodi di applicazione, l’Anova e la Regressione condividono lo stesso obiettivo comune: predire e studiare le relazioni tra una variabile indipendente e delle variabili dipendenti. La differenza concettuale è la seguente: nell’Anova le variabili indipendenti sono qualitative, mentre nella Regressione le variabili indipendenti sono quantitative. La variabile dipendente sarà in entrambi i casi quantitativa. Facciamo due esempi per spiegare meglio la differenza:
- se voglio studiare come la regione di nascita influisca sul reddito allora userò l’Anova in quanto la variabile considerata indipendente (la regione di nascita) è di tipo qualitativo;
- se voglio studiare come la statura influisca sul reddito allora userò la Regressione in quanto la variabile considerata indipendente (la statura) è di tipo quantitativo.
Anche dal punto di vista della nomenclatura c’è qualche differenza: si è soliti riferirsi alle variabili indipendenti della regressione come regressori, mentre per l’Anova si usa il termine fattori (da non confondere con il significato della medesima parola utilizzata nell’ambito dell’analisi fattoriale).
Potrebbe capitare di voler eseguire un’analisi dove siano presenti contemporaneamente entrambe le tipologie di variabili. In quel caso possiamo tentare entrambi gli approcci:
- suddividere in classi i valori delle variabili quantitative e usare l’Anova: ad esempio possiamo scegliere delle soglie per classificare le misurazioni della statura nei valori basso, medio e alto;
- rappresentare le variabili qualitative con dei numeri tramite le variabili dummy e applicare la regressione.
Anova a una via e a più vie
Nell’articolo sulla Regressione abbiamo fatto la distinzione tra regressione semplice e multipla in base al numero di variabili indipendenti. La stessa distinzione può essere fatta per l’Anova, parleremo infatti di:
- Anova a una via se l’analisi comprende una sola variabile indipendente;
- Anova a più vie se l’analisi è svolta con più variabili indipendenti (in particolare, se sono due, si parlerà di Anova a due vie).
Per l’Anova a più vie si è soliti fare un’ulteriore suddivisione:
- nell’Anova a effetti principali consideriamo esclusivamente il contributo dato autonomamente dalle singole variabili;
- nell’Anova a effetti saturi consideriamo anche l’interazione tra le variabili.
Un esempio di analisi della varianza
Vediamo ora un esempio concreto di applicazione di una tecnica Anova, studiando il caso più semplice a una via. Supponiamo che uno studente voglia esaminare l’esistenza di una relazione tra le materie scolastiche e i voti conseguiti. Per far ciò raccoglie i seguenti dati:
Materia | Voto |
Umanistica | 5 |
Scientifica | 8 |
Economica | 9 |
Scientifica | 8 |
Scientifica | 10 |
Economica | 7 |
Umanistica | 5 |
Umanistica | 6 |
Economica | 9 |
Scientifica | 8 |
Umanistica | 4 |
Economica | 8 |
Abbiamo dunque una variabile qualitativa (la Materia di studio) che può assumere tre diverse modalità (umanistica, scientifica ed economica) e una variabile quantitativa (il voto). Siamo dunque nell’ambito di applicazione dell’Anova!
Calcoli da eseguire in un’analisi della varianza
Per eseguire un’analisi Anova a una via abbiamo bisogno preliminarmente di calcolare tre tipi di devianze: la devianza totale, la devianza nei gruppi (detta anche devianza within) e la devianza tra gruppi (detta anche devianza between). In realtà potremmo calcolare direttamente anche soltanto due di questi valori, ricavando il terzo dalla relazione generale:
devianza totale = devianza nei gruppi + devianza tra gruppi
A questo punto avremmo tutti gli ingredienti per calcolare il coefficiente eta quadro.
Devianza totale
La devianza totale è definita semplicemente come la varianza della variabile Voti moltiplicata per il numero di unità statistiche. Nel nostro caso otteniamo 38,25.
Devianza tra gruppi o devianza between
Con il termine gruppo intendiamo l’insieme di unità statistiche che condividono uno stesso valore della variabile qualitativa. Fatta questa premessa, per ottenere la devianza tra gruppi calcoliamo preliminarmente la media aritmetica totale e le medie ristrette alle tre classi di materie:
Media totale | 7,25 |
Media Umanistica | 5 |
Media Scientifica | 8,5 |
Media Economica | 8,25 |
A questo punto calcoliamo quella che potrebbe essere interpretata come una sorta di devianza tra medie. Osservando che ogni materia è presente quattro volte, definiamo in questo caso la devianza between come
Devianza between = 4*(5- 7,25)2 + 4*(8,5 – 7,25)2 + 4*(8,25- 7,25)2 = 30,5
pari cioè alla somma degli scarti al quadrato tra la media totale e la media delle singoli classi, ognuno moltiplicato per la numerosità delle classi.
Nel contesto di un’analisi Anova, la devianza tra gruppi è detta anche varianza del modello.
Devianza nei gruppi o devianza within
La devianza within non è strettamente necessaria per trovare il coefficiente eta quadro. Tuttavia è importante conoscerne le modalità di calcolo per poi verificare il rapporto con le due devianze calcolate precedentemente.
Avrò bisogno preliminarmente delle tre devianze ottenute considerando separatamente i soli voti di materie umanistiche, poi quelli delle materie scientifiche e infine quelli delle materie economiche. Definiamo la devianza within come la somma di queste tre devianze.
Devianza Umanistica | 2 |
Devianza Scientifica | 2,75 |
Devianza Economica | 3 |
Devianza within | 2 + 2,75 + 3 = 7,75 |
Osserviamo infine che abbiamo verificato la relazione per cui la somma di devianza between e devianza within (30,5 e 7,75) è pari alla devianza totale 38,25.
Nel contesto di un’analisi Anova, la devianza nei gruppi è detta anche varianza dell’errore.
Coefficiente eta quadro
A questo punto possiamo calcolare il coefficiente eta quadro (η2) definito come il rapporto tra la devianza between e la devianza totale. Nel nostro caso avremo
η2 = Devianza Between / Devianza Totale = 30,5 / 38,25 = 0,797
Quando questo coefficiente assume valori prossimi all’1 (che è il massimo possibile) abbiamo l’indicazione di una forte relazione tra le due variabili studiate. Valori dell’eta quadro vicini a zero indicano invece un legame sempre più debole.
Test statistici e assunzioni per Anova
Se voglio generalizzare i risultati ottenuti sul campione a un’intera popolazione devo far ricorso alla statistica inferenziale e a un test statistico. In particolare la statistica test generalmente utilizzata è quella di Fisher-Snedecor data dalla formula:

dove N è la numerosità del campione (nel nostro caso 12), mentre K il numero di gruppi (nel nostro caso 3: umanistiche, scientifiche ed economiche). Con i nostri dati otteniamo il valore 19,67 da confrontare con le tavole della distribuzione F disponibili ad esempio qui https://www.unirc.it/documentazione/materiale_didattico/600_2011_294_11517.pdf.
Per utilizzare questo test è però fondamentale controllare alcune assunzioni:
- le varie misurazioni sono indipendenti tra loro (nel nostro caso ad esempio supponiamo che il voto ottenuto in una materia non influenzi quelli successivi)
- la variabile numerica si distribuisce secondo una distribuzione normale quando ristretta a ogni valore della variabile qualitativa
- la varianza dei vari gruppi è similare
Il secondo e il terzo assunto possono essere controllati a loro volta con dei test statistici come Shapiro-Wilk o Kolmogorov-Smirnov per la normalità e il test di Lavine per la varianza.
Osserviamo infine che nel caso di Anova a una via con una variabile qualitativa dicotomica (che assume cioè solo due valori) con il test precedente si ottengono gli stessi risultati di un test t.
Continua a imparare
- Ripassiamo cos’è e come interpretare il p value.