Cosa imparare in un corso di analisi dei dati

corsi analisi dei dati

Spesso chi si approccia alla ricerca di un corso di analisi dei dati esegue le ricerche e le scelte in base a specifiche tecnologie o linguaggi di programmazione. Per quanto sia sicuramente corretto partire studiando i linguaggi più richiesti come Python e SQL, molto spesso si sottovaluta il fatto che essi rappresentano soltanto un mezzo per raggiungere quelli che sono i veri scopi dell’analisi dei dati.

Per costruire un profilo di Data Analyst o Data Scientist (e non di programmatore Python, R o SQL) ha senso a mio parere cercare, e nel mio caso offrire come docente, corsi che si concentrino in primo luogo sulle attività di gestione del dato, vedendo la particolare tecnologia utilizzata come lo strumento o il “cacciavite”. Ripercorrendo questa metafora, vogliamo evitare il pericoloso rischio di diventare degli abilissimi utilizzatori di cacciaviti, che non hanno però la minima idea di quale vite toccare.

Nei prossimi paragrafi inserirò una lista minima di temi che un corso di analisi dei dati deve insegnarti, possibilmente usando le tecnologie più richieste attualmente sul mercato del lavoro, ma tenendo in considerazione che tali tecnologie e linguaggi cambiano, si evolvono, mentre i principi fondamentali restano per sempre.

 

Acquisizione dei dati

Il primo step di ogni procedura di analisi è l’acquisizione dei dati a partire dal loro formato nativo. Sarà dunque necessario conoscere le strutture e i parametri che definiscono i formati più comuni con cui attualmente sono disponibili i dati:

  • file .csv
  • file .xml
  • file .json
  • file excel
  • tabelle di un database relazionale
  • tabelle di un database non relazionale
  • file di testo con struttura
  • acquisizione tramite API

Compresi i principi, sarà opportuno vedere degli esempi pratici di utilizzo, ad esempio con Excel e Python. L’obiettivo è acquisire le skill necessarie per poterci adattare anche alle future tecnologie, che prima o poi rimpiazzeranno quelle che studiamo oggi.

 

Data quality e Data transformation

Effettuato l’import, prima di ogni attività di analisi, occorre garantire che i dati di partenza abbiano un livello di qualità soddisfacente. Ciò può essere dedotto con numerose strategie come ad esempio:

  • il controllo della presenza dei duplicati;
  • il controllo dei tipi dei dati;
  • la creazione di vincoli funzionali;
  • la valutazione dei dati mancanti;
  • la valutazione della presenza di outlier.

Per eseguire questi controlli su un database relazionale dovremo usare una sintassi diversa rispetto ad un database non relazionle. Su R o su Python scriveremo del codice completamente differente. Ma quel che spero di farvi capire con questo articolo è che quello che cambia è solamente la sintassi, i principi e gli schemi logici da sapere sono gli stessi. In questo articolo è presente un approfondimento sul tema della data quality https://www.datamanager.it/2021/04/data-quality-universo-a-otto-dimensioni/

Terminati i controlli di Data Quality, spesso si rivela necessario riorganizzare e trasformare i dati in una forma più semplice e idonea all’analisi . In questa fase effettuiamo operazioni come:

  • codifica dei formati;
  • individuazione di relazioni funzionali;
  • normalizzazione in tabelle di strutture matriciali.

 

Analisi dei dati

L’analisi dei dati può seguire diversi approcci:

  • analisi statistica: sarà necessario conoscere i principali indici statistici sia per l’analisi individuale di una variabile (media, moda, mediana, quartili, varianza, deviazione standard, coefficiente di variazione, indici di forma, box plot, ecc…) e sia per l’analisi congiunta di più variabili (covarianza, coefficienti di correlazione, indice chi-quadro);
  • analisi dichiarativa: i dati provenienti da più fonti sono filtrati, aggregati e combinati per ridurne la cardinalità ed estrarre dalla moltitudine inziale dei report sintetici ad alto potere informativo.
  • analisi predittiva: vengono trattati problemi di classificazione, regressione e clusterizzazione tramite algoritmi matematici di Machine Learning.

 

Data visualization e Reporting

L’analisi effettuata dovrà essere infine presentata e resa fruibile a tutte le figure aziendali interessate, a maggior ragione a quelle che non hanno un profilo prettamente tecnico. Sarà dunque necessario rendere i report estremamente comunicativi e interattivi tramite una serie di tecniche di Data Visualization come la creazione di grafici appropriati, pulsanti interattivi, dashboard strutturate, eccetera.

 

I miei corsi di analisi dei dati

Su questi principi ho basato l’ideazione del mio corso generale di Data Management disponibile al link https://www.yimp.it/data-management-per-le-aziende/ e di tutti gli altri corsi sui singoli strumenti informatici https://www.yimp.it/corsi-informazioni-generali/

Torna su