Data Quality con Power Query: gestione dei null, dei duplicati e dei tipi

Data quality su Power BI

Come anticipato nell’articolo sull’import dei CSV, Power BI desktop dispone di un potente strumento di pulizia e trasformazione dei dati che consente di trasformare i dati che vengono importati. Questo strumento è basato sul linguaggio Power Query o M ma dispone di una interfaccia che ci permette di effettuare la maggior parte delle trasformazioni senza scrivere una riga di codice.

Attività di Data Quality e trasformazione dei dati

Elenchiamo le principali attività di Data Quality e trasformazioni che possiamo svolgere con il tool.

  • Completamento dati: Power Query può gestire dati con valori mancanti e fornisce diverse opzioni per trattarli.
  • Correzione dei formati dati: spesso occorre uniformare i dati in modo coerente agendo sulle discrepanze nei formati dei dati, ad esempio date in formati diversi o testo con lettere maiuscole, minuscole e miste.
  • Rimozione dei duplicati: possiamo rilevare e rimuovere righe duplicate nei dati, garantendo che i record siano univoci.
  • Correzione degli errori di formattazione: se i dati hanno problemi di formattazione, come numeri con virgole o punti decimali non consistenti, Power Query può correggerli secondo le logiche che preferiamo.
  • Filtro dei dati: è possibile filtrare i dati in base ai criteri che preferiamo per rimuovere dati non necessari.
  • Modifiche dei valori: Power Query offre diverse funzioni per manipolare testi, come unire colonne, dividere testo, rimuovere spazi vuoti o caratteri speciali, ecc.
  • Trasformazioni tabellari (join e union): con Power Query, puoi eseguire operazioni di aggregazione delle tabelle, in questo senso citiamo due trasformazioni principali: “union” e “join”. Questi termini derivanti dal linguaggio SQL sono genericamente utilizzati in modo trasversale nell’ambito della trasformazione dei dati.
  • Produzione di colonne calcolate: possiamo creare nuove colonne calcolate in base ai dati esistenti o utilizzare formule personalizzate per eseguire calcoli complessi.

In questo articolo ci concentreremo sui Null, la rimozione dei duplicati e la gestione dei tipi.

Gestione dei Null con Power Query

Dopo aver importato una serie di dati finanziari da un foglio excel (la procedura di import è molto simile a quella vista nella lezione precedente sul file CSV) la situazione è quella mostrata nella figura seguente:

Anteprima in Power query di un file excel contenente dati finanziari

Individuiamo subito una serie di problemi, intanto nella prima riga il prodotto è vuoto. In questo caso abbiamo diverse opzioni, se per esempio vogliamo escludere quella riga dall’analisi basta filtrarla cliccando sul quadratino bianco con la freccia nera in cima alla colonna e deselezionando il valore “null”. Facciamo attenzione che nella barra in alto della formula M appaia una formula che effettivamente escluda i null (invece di essere configurata come un filtro che acquisisce l’elenco restante di valori). Per questo specifico file non cambierebbe niente, ma la procedura sarebbe generalizzabile anche ad altri file con la stessa struttura ma dati diversi.

In alternativa, se ad esempio conosciamo il valore che andrebbe inserito al posto dei null posso rimpiazzarli cliccando su “Sostituisci valori” e poi inserendo il dato corretto.

maschera di power query per sostituire i null

Ci sono ulteriori alternative come il “Riepimento in alto” e “Riempimento in basso” (nella versione in inglese fill up ed il fill down). Con queste opzioni ogni valore nullo di una colonna sarà valorizzato come il primo valore non nullo successivo (fill up) o con il primo valore non nullo che lo precede (fill down). Questa opzione può essere attivata sia dal pannello in alto che cliccando con il tasto destro su una colonna e poi su Riempimento.

Rimozione dei duplicati

Per evitare di avere righe duplicate basta cliccare sul simbolo della tabella in alto a sinistra della preview della tabella e poi cliccare su Rimuovi duplicati come nell’immagine in basso. Facciamo attenzione però alle performance perché questa attività può essere molto dispendiosa dal punto di vista computazionale. In determinati casi potremmo voler rimuovere valori duplicati da una colonna specifica, in quel caso dovremo cliccare col tasto destro sul nome della colonna e poi su “remove duplicates”, verrà mantenuta la prima riga trovata.

Rimozione duplicati su Power BI
corso di analisi dei dati
Se vuoi diventare un esperto (qualunque sia il tuo livello di partenza) ti invito a visitare l’anteprima gratuita della piattaforma –> La Scuola dei Dati <–

Correzione dei tipi dei dati

Sulla sinistra del nome della colonna è visibile un piccolo simbolo che indica il tipo dato della stessa, il simbolo con le lettere indica un tipo “testo” e i numeri indicano un tipo “numero intero”. La “tipizzazione” del dato è importante perché determinate operazioni possono essere effettuate solo con specifici tipi di dato, per esempio nelle immagini precedenti potete vedere che la colonna “Units sold” è di tipo testo, questo non ci permetterebbe successivamente di effettuare una somma di quella colonna. lo stesso vale per le date per le quali va impostato il tipo dato “Date”. Per modificare il tipo dato possiamo cliccare sul simbolo e verrà fuori una lista da cui scegliere.

Facciamo comunque sempre attenzione al formato dei numeri e delle date per quel che riguarda i separatori di migliaia e decimali oppure il particolare ordine con cui sono indicati giorni, mesi e anno. Risulta sempre fondamentale effettuare dei test su questo tipo di colonne per verificare che il cambio del tipo non abbia portato a modifiche inattese. Teniamo presente inoltre che quando importiamo un file Power Query cercherà in automatico di assegnare dei tipi alle colonne, assicuriamoci che lo faccia correttamente!

In generale Power Query offre tante altre soluzioni per modificare i propri dati, per esempio possiamo utilizzare il tasto “Formato” dalla scheda “Trasforma” per mettere una maiuscola come prima lettera in ogni valore di una colonna o per eliminare gli spazi vuoti alla fine dei valori di testo.

Continua a imparare

Ricordate sempre che ogni trasformazione applicata genera uno step sul pannello a destra, per eliminare una trasformazione che non vi serve o che avete inserito erroneamente basta cliccare sulla crocetta alla destra di tale step, se volete modificarla basta un doppio click. Quando avete concluso con le trasformazioni cliccate su “chiudi e applica” per tornare nella home di Power BI.

Torna in alto
Torna su