Corso Data Science: impara ad analizzare i tuoi dati con SQL e Python

Corso data scientist torino

Il mio corso per Data Scientist nasce da una lunga riflessione per condensare in una durata ragionevole un programma che permetta di avere una panoramica il più possibile completa sul mondo dell’analisi dei dati e della data science. L’obiettivo è di offrire una formazione a trecentosessanta gradi che possa creare professionisti pronti per lavorare nell’ambito della Data Science. Con questo corso ti insegnerò ad analizzare i dati tramite approcci descrittivi e predittivi, a programmare con i linguaggi più richiesti in questo settore per imparare a trasformare i dati grezzi in preziosissime fonti di informazione.

Per individuare i contenuti didattici più importanti, sono partito da quelle che sono solitamente le fasi necessarie per lo sviluppo concreto di un database locale, costruito al fine di estrarre informazioni a partire da fonti data eterogenee.

  • Progettazione e creazione di un database: partendo dall’analisi dei dati a disposizione, questi devono essere raccolti in un database centralizzato. A tal fine occorrerà configurare le procedure di import in un database di Staging, progettare e creare un database di reportistica e infine popolarlo effettuando nelle Staging le necessarie trasformazioni e controlli di Data Quality (puoi approfondire qui https://www.bnova.it/blog/data-quality-a-cosa-serve/).
  • Estrazione delle informazioni dal database con analisi dichiarative: lo sviluppatore deve essere in grado di interrogare il database, effettuando query che permettano di filtrare, raggruppare, aggregare, combinare e calcolare i dati.
  • Estrazione delle informazioni da un database con analisi predittive: le analisi precedenti possono essere ampliate utilizzando tecniche più fini che permettano di estendere le capacità predittive del database con la creazione di modelli di machine learning
  • Reportistica: gli output delle analisi possono infine essere portati su un software specifico di reportistica con il quale sarà possibile creare facilmente dashboard, grafici significativi e interfacce per interagire con i dati.

Ognuno di questi quattro punti può essere oggetto di specializzazione ed effettuato con diverse modalità. Dallo studio e dalla mia esperienza pratica in ognuno di essi, ho elaborato questo programma con l’intento di guidare lo studente in un percorso graduale, scandito da obiettivi intermedi chiari e tangibili, che mattone dopo mattone permetta di espandere le proprio conoscenze. 

 

Programma del corso Data Science

Ho diviso il programma in quattro sezioni.

Il linguaggio SQL e i database

Nell’ottica di una didattica che fornisca fin da subito delle competenze utilizzabili e tangibili, anche a profili con un background scientifico ma non prettamente informatico, il secondo tema dell’elenco precedente “Estrazione delle informazioni da un database con analisi dichiarative” risulta a mio parere il punto focale da cui partire.

Per quanto il database possa essere creato seguendo sia uno schema relazionale che non relazionale, l’iniziale scelta di un database relazionale ci aprirà la strada all’apprendimento del linguaggio di programmazione SQL. Per la sua natura dichiarativa e le peculiarità della sua sintassi english-like, l’SQL risulta avere una curva di apprendimento generalmente più ripida rispetto ad altri linguaggi. Tramite la sua conoscenza diventerà possibile effettuare fluentemente tutta una serie di analisi dati di tipo dichiarativo e raggiungere subito un primo fondamentale check point nel percorso di apprendimento.

Progettare il database e le procedure di import dei dati

Nella sezione precedente del corso lavoreremo su un database preesistente, creato ad hoc da me per racchiudere delle casistiche variegate e complete con le quali esercitarsi con l’SQL. Vedremo inoltre come seguire delle semplici procedure guidate, da ripetere ogni volta che si desidera lavorare su dati diversi. La fase di acquisizione dei dati verrà esplorata e approfondita in questa seconda sezione.

Per importare dati provenienti da svariate fonti utilizzeremo anche il linguaggio di programmazione Python. Questa sarà una buona occasione per introdurre Python e iniziare ad utilizzarlo, in visto della sezione di Machine Learning dove sarà l’assoluto protagonista.

Studieremo inoltre come efficientare la progettazione del database, risolvendo i classici problemi legati alla struttura delle tabelle, alle relative colonne, alla storicizzazione dei dati e alla gestione dei log delle modifiche. Estenderemo dunque le nostre conoscenze dell’SQL per utilizzare costrutti più avanzati e imparare a incapsulare il codice in stored procedere atte al popolamento del database.

Statistica e tecniche di machine learning

Non è obiettivo del corso quello di trattare approfonditamente le teorie statistico-matematiche alla base degli algoritmi di Machine Learning. Tuttavia un breve excursus teorico sarà necessario per consolidare quelle conoscenze statistiche fondamentali che ogni analista dei dati deve possedere e per spianare la strada alla successiva fase di programmazione in Python.

Programmazione in Python

Consolidati i concetti dei primi tre moduli, riprenderemo lo studio del linguaggio di programmazione maggiormente usato oggi in ambito Data Science: Python. Questa volta lo utilizzeremo in congiunzione con le sue più importanti librerie per creare dei concreti modelli di machine learning, grazie ai quali potremo espandere le tipologie di analisi condotte sui dati.

Impareremo ad utilizzare le principali librerie di Python nell’ambito dei dati come Pandas, Numpy, Scikit-Learn e Pycaret. In particolare con Pycaret avremo modo di fare esperimenti con numerosi classi di algoritmi: classificazione supervisionata, regressione, clusterizzazione, ricerca di valori anomali e regole di associazioni.

Data visualization

I risultati delle analisi devono essere presentati correttamente, utilizzato modalità moderne ed efficienti di rappresentazione dei dati. Per far questo può essere utile collegare al database un software di reportistica e business intelligence.

 

Informazioni generali sul corso

Modalità di erogazione: in diretta streaming con software di videoconferenza

Durata edizione one-to-one (lezioni ristrette ad un solo partecipante): 64ore

Costo edizione one-to-one (lezioni ristrette ad un solo partecipante): 2880€

Durata edizione aziendale (lezioni per partecipanti della stessa azienda): da definire in una call

Costo edizione aziendale (lezioni per partecipanti della stessa azienda): 60€/h

Data di partenza del corso: entro un mese circa dalla richiesta

Calendario: concordato con lo studente o l’azienda

Possibilità di registrare le lezioni per uso didattico:

Prerequisiti: nessuno

Tutti i prezzi di questa pagina sono esenti iva (iva allo 0%) in quanto erogati nell’ambito del regime fiscale forfettario.

 

Contattami

CAPTCHA immagine

Questo ci aiuta a prevenire lo spam, grazie.

Torna su