La statistica inferenziale è la branca della statistica che attraverso un insieme di tecniche basate sulla teoria della probabilità consente di verificare se sia possibile o meno trasferire i risultati di un campione a una popolazione più estesa. L’obiettivo della statistica inferenziale è di generalizzare, o meglio “inferire“, i risultati ricavati sul campione statistico a tutto l’universo, ottenendo quindi informazioni sull’intera popolazione statistica che vogliamo studiare.
In questo articolo daremo la definizione di campione statistico, spiegheremo perché è conveniente studiarlo in luogo dell’intera popolazione, daremo delle utili dritte su come selezionarlo e vedremo del codice relativo in SQL e Python.
Il campione statistico
Il campione statistico è l’insieme di unità statistiche, sottoinsieme opportunamente estratto dall’intera popolazione o universo, dal quale è possibile trarre indicazioni sulle caratteristiche dell’intera popolazione, con un margine di errore possibilmente contenuto. Per determinare le caratteristiche fondamentali di una popolazione statistica non sempre è necessario analizzare tutta la popolazione, ma spesso risulta sufficiente effettuare un’analisi campionaria in cui esaminiamo solo una parte di essa, ovvero un campione statistico.
Anche se a primo acchito, un’analisi campionaria ci può apparire sommaria e limitata, in realtà, permette di ottenere svariati vantaggi che la rendono addirittura la tecnica più efficace in alcuni tipi di investigazione statistica.
Vantaggi dell’analisi campionaria
Analizziamo alcuni vantaggi dell’analisi campionaria.
- Costi ridotti: consideriamo ad esempio il ricorso ai censimenti che viene fatto soltanto dall’ISTAT, ogni dieci anni, per ottenere un quadro delle principali caratteristiche socioeconomiche e demografiche dell’intera popolazione italiana, mentre tutte le altre indagini vengono svolte quasi sempre su campioni di popolazione. Inoltre, il ricorso alla procedura di campionamento è necessario ogniqualvolta la popolazione di riferimento non è fisicamente raggiungibile nella sua totalità. Lo stesso discorso vale se volessimo prevedere l’apprezzamento di un nuovo prodotto che verrà lanciato sul mercato. Intervistare più persone possibili richiederebbe tempo e risorse. Con un campione, invece, si ovvia questo problema, ottenendo ugualmente degli insight utili per il business che può così muoversi più rapidamente.
- Tempi più brevi per le acquisizioni dei dati: i dati e le informazioni che si vogliono raccogliere sono di più rapido accesso con rilevazioni parziali piuttosto che con quelle totali. La tempestività nel raccogliere i dati risulta di notevole rilevanza quando le informazioni e i risultati sono necessari nel più breve tempo possibile.
- Maggior accuratezza: più unità statistiche aumentano anche il numero di errori possibili. L’analisi di campionamento risulta invece più approfondita per la presenza di elementi limitati.
- I test per la conoscenza del carattere possono essere distruttivi: supponiamo di voler prevedere la durata media del ciclo vitale di una lavatrice o dopo quanti utilizzi una macchina dà segni di anomalie e malfunzionamento.
- In svariati casi non è tecnicamente possibile analizzare tutte le unità statistiche: prendiamo come esempio lo studio del numero delle piastrine contenute nel sangue o l’affluenza alle urne delle elezioni di una grande città.
Una delle fasi fondamentali di un’indagine campionaria è il piano di campionamento. Esso è il processo in cui si definiscono la popolazione obiettivo dell’indagine statistica, le unità campionarie, l’ampiezza del campione e il metodo di campionamento.
Come scegliere un campione statistico?
Un buon campione per condurre a risultati esatti o più accurati possibili deve avere tre caratteristiche principali:
- deve rappresentare l’universo statistico nelle giuste proporzioni;
- deve essere perfettamente rappresentativo della popolazione;
- deve essere individuato con un campionamento casuale.
Il campione dovrebbe contenere un numero di unità statistiche pari a circa il 10% dell’universo con un minimo di 100. Se, ad esempio, non sei sicuro che il campione che hai scelto sia numericamente rappresentativo, puoi aiutarti con un sito web come questo https://www.idsurvey.com/it/dimensione-del-campione-di-indagine/. In generale dovrai scegliere:
- la dimensione della popolazione che corrisponde al numero di persone le cui opinioni o i cui comportamenti sono rappresentati dal campione;
- il livello di confidenza che è la probabilità che il campione rifletta in modo accurato gli atteggiamenti della popolazione analizzata. Il valore standard è 95%;
- il margine di errore che rappresenta il numero totale di persone le cui opinioni o i cui comportamenti sono rappresentati dal campione
- la deviazione standard che rappresenta la variazione attesa tra le diverse risposte e in molti calcolatori online è pre-valorizzato con un default.
Per essere rappresentativo della popolazione, il campionamento deve garantire la condizione di casualità della selezione delle unità della popolazione che ne faranno parte. Non è possibile, infatti, fare inferenza su un campione non casuale, perché questo produrrebbe dei condizionamenti nell’indagine. In un campionamento casuale semplice, tutti gli individui della popolazione hanno uguale probabilità di essere inclusi nel campione.
Tecniche di statistica inferenziale
Le tecniche di statistica inferenziale permettono di formulare delle conclusioni sulla variabile causale associata a un determinato carattere della popolazione, tramite l’osservazione del campione. La scelta della tecnica di analisi differisce dalle ipotesi di ricerca e dalle variabili, ma esse fanno tutte riferimento alla teoria della probabilità.
I metodi e le tecniche di inferenza statistica possono essere suddivisi in:
- metodi di stima dei parametri: assegnano un valore al parametro o all’insieme di parametri che caratterizzano il campo oggetto di studio. Essendo una stima, è sempre previsto un certo margine di errore. Per ottenere delle stime adeguate vengono creati intervalli di confidenza;
- metodi di verifica delle ipotesi: il suo obiettivo è verificare se una stima corrisponde ai valori della popolazione. In tutti i test di ipotesi ci sono due ipotesi. L’ipotesi nulla, o congettura, H0 che riflette l’idea che un valore abbia un valore predeterminato. Se l’ipotesi nulla H0 viene rifiutata, viene accettata l’ipotesi alternativa H1.
Selezione di un campione di righe con Python e SQL
Se abbiamo dei dati organizzati in un DataFrame della libreria pandas di Python, possiamo estrarne un campione casuale formato dal 10% delle righe totale con questo codice:
df.sample(frac = 0.10)
Sul Database relazionale SQL Server eseguiamo la stessa estrazione a partire da una tabella con il codice SQL
SELECT TOP 10 PERCENT * FROM Clienti ORDER BY NEWID()
Continua a imparare
- Segui la lezione successiva sul p-value
- Torna all’indice delle lezioni
- Visita la pagina del mio corso online di statistica