Varianza: cosa indica e coma calcolarla

varianza statistica

La varianza è un indicatore statistico molto importante che misura il grado di variabilità di una variabile quantitativa. In questo articolo studieremo vari aspetto della varianza, partendo dal suo calcolo e dalle relative formule, cosa indica, quali sono le sue proprietà e il rapporto con la deviazione standard.

 

Quando e perché calcolare la varianza

Il calcolo della varianza è alla base di molte tecniche statistiche legate allo studio della variabilità di una variabile. In breve possiamo affermare che valori bassi delle varianza sono tipici di variabili che assumono spesso valori simili tra loro. Ad esempio per uno studente che prende sempre voti compresi tra il sei e il sette, la varianza della variabile voti sarà più bassa rispetto a quello di  uno studente che può passare da un compito completamente insufficiente in cui prende 2 ad uno in cui eccelle e prende 9.

La varianza può essere calcolata solo relativamente ad una variabile quantitativa come ad esempio il peso, l’altezza. il reddito o i voti universitari. Non possiamo calcolarla per variabili qualitative come il colore degli occhi o il grado di istruzione, in quanto non sono esprimibili con delle quantità numeriche e quindi non è possibile applicare i calcoli necessari.

 

Come si calcola

Per calcolare la varianza abbiamo due formule abbastanza differenti nella struttura, ma che restituiranno sempre lo stesso risultato. La prima formula è quella secondo me più semplice e veloce da utilizzare, anche se non mette bene in mostra il concetto di “misura di variabilità“:

Varianza(X) = Media(X2) – [Media(X)]2

Analizzando la formula osserviamo che ci basta effettuare la sottrazione tra

  • la media dei valori elevati al quadrato
  • il quadrato della media calcolata con i valori semplici

La seconda formula richiede invece più calcoli:

formula varianza

I valori tra parentesi Xi – Media(X) sono detti scarti dalla media in quanto pari alla differenza tra i valori della variabile e la sua media generale. Con questa definizione possiamo descrivere la formula della varianza come la media aritmetica degli scarti elevati al quadrato. L’elevamento al quadrato è fatto al fine di evitare che gli scarti negati si compensino con quelli positivi.

A scanso di equivoci vi ricordo che le due formule, per quanto possano sembrare differenti, sono completamente equivalenti e quindi vi porteranno sempre allo stesso risultato (puoi approfondire qui https://www.youmath.it/domande-a-risposte/view/5146-calcolo-con-la-varianza.html).

 

Proprietà della varianza

La varianza di una variabile sarà sempre un numero maggiore o uguale di zero. Ciò è reso più esplicito dalla seconda formula dove è calcolata come la media aritmetica di valori sempre positivi perché derivati da un’operazione di elevamento al quadrato.  In particolare il valore minimo zero si ottiene solo per variabili costanti, cioè che assumono sempre lo stesso valore. Le altre due principali proprietà della varianza sono:

  • la varianza non cambia se sommiamo a tutti i valori di una variabile una stessa quantità. In formule Var(X) = Var(X + b);
  • se moltiplichiamo tutti i valori di una variabile per una stessa quantità la varianza cambia di un fattore moltiplicativo pari alla quantità al quadrato. In formule Var(a*X) = a2 * Var(X);

 

Varianza e Deviazione Standard

Spesso si preferisce utilizzare come misura della variabilità la deviazione standard.  I due indici statistici sono strettamente legati, in particolare per calcolare la deviazione standard sarà comunque fondamentale calcolare prima la varianza. Vale infatti la seguente formula:formula che lega deviazione standard e varianzaIl calcolo della radice quadrata è sempre fattibile in quanto abbiamo visto in precedenza che la varianza è una quantità sempre positiva o al più nulla. La Deviazione Standard ha il vantaggio di essere un numero nella stessa scala e unità di misura della variabile statistica di partenza: di conseguenza è più facilmente interpretabile e rapportabile con i valori assunti.

 

Stima della varianza della popolazione

Tramite le formule viste finora otteniamo una misura della variabilità dei dati che abbiamo raccolto. Spesso però i nostri dati appartengono ad una popolazione molto più vasta, di cui per forza di cosa non potremmo misurare la variabile di interesse per tutti gli esemplari. Spesso si fa riferimento ai dati a disposizione come quelli di un particolare campione della popolazione. Se vogliamo generalizzare i risultati del campione all’intera popolazione allora dobbiamo usare delle tecniche di statistica inferenziale.

In particolare, se voglio dare una stima della varianza dell’intera popolazione, allora dovremmo ragionare sul fatto che la varianza ottenuta dai miei dati sarà un valore un po’ più basso rispetto a quello dell’intera popolazione, proprio perché non sto considerando tutti i possibili individui. Più precisamente, per stimare la varianza di una popolazione spesso si utilizza questa formula:

Stima della varianza della popolazione = Varianza del campione * (N/N-1)

dove N è la numerosità del campione. Osserviamo che il coefficiente N/N-1 è un numero sempre maggiore di 1 poiché è una frazione il cui numeratore è maggiore del denominatore. Di conseguenza la stima della varianza della popolazione sarà sempre maggiore della varianza del campione di partenza. Combinando questa formula con quella del paragrafo precedente otteniamo

formula stima della varianza

 

Simboli sigma quadro e s quadro

Per riferirsi alla varianza di una variabile X si utilizza spesso l’abbreviazione Var(X) oppure la lettera greca sigma elevata al quadrato σ2(X). La deviazione standard sarà indica soltanto con la lettera sigma: σ(X). Per indicare invece la stima della varianza della popolazione viene utilizzata solitamente la notazione s2(X) 

 

Continua a imparare

Torna su