Skip to main content

L’analisi dei dati è un aspetto sempre più importante per le aziende, in quanto può fornire informazioni preziose per prendere decisioni mirate. 

Tuttavia, prima di essere analizzati dagli algoritmi di apprendimento automatico, i dati devono essere preparati e trasformati in un formato utile e coerente.

Questo processo è noto come Data Wrangling (o Data Cleaning), ed è fondamentale, in quanto aiuta a ottenere informazioni accurate, coerenti e complete

In particolare, il Data Wrangling comprende l’acquisizione dei dati da diverse fonti, la pulizia per rimuovere i valori mancanti e gli errori di formattazione, la trasformazione per adattarli ai requisiti dell’analisi, e l’integrazione in un’unica visione coerente.

Il Data Wrangling richiede una conoscenza approfondita delle tecniche di elaborazione, nonché la capacità di utilizzare gli strumenti appropriati per gestire grandi quantità di informazioni. 

L’importanza del Data Wrangling non va sottovalutata, in quanto può avere un impatto significativo sui risultati dell’analisi

Per questo vengono investite sempre più risorse nella preparazione dei dati, al fine di garantire la precisione e l’affidabilità delle previsioni.

In questo articolo vediamo quali sono le attività da affrontare nel processo di Data Wrangling, i possibili errori, e un esempio pratico di applicazione della tecnica.

Data Wrangling: il processo

Il processo di Data Wrangling viene suddiviso in quattro fasi principali: acquisizione, pulizia, trasformazione e integrazione.

Acquisizione

La fase di acquisizione comporta la raccolta delle informazioni da diverse fonti, come ad esempio database, fogli di calcolo, file di testo, feed RSS e social media, ecc. 

Una volta raccolti, i dati vanno archiviati in un formato facilmente accessibile, per poi essere utilizzati dagli algoritmi di apprendimento automatico.

Pulizia

La fase di pulizia è la seconda attività da svolgere, e prevede l’eliminazione delle informazioni non valide o errate

Questo step include quindi la rimozione dei duplicati, l’eliminazione dei valori mancanti, la gestione dei dati errati, e la correzione degli errori di formattazione.

Tutti questi passaggi sono fondamentali per garantire l’accuratezza e la coerenza delle informazioni che il nostro algoritmo analizzerà successivamente.

Trasformazione

La fase di trasformazione prevede la conversione dei dati in un formato coerente, facilmente utilizzabile dagli algoritmi di Machine Learning.

Ciò include la normalizzazione, la conversione dei dati in un formato standard, l’aggregazione, e la creazione di nuove variabili per facilitare l’analisi.

Integrazione

La fase di integrazione prevede la combinazione di informazioni di varia origine in un unico dataset coerente, il che include l’eliminazione dei duplicati e la creazione di chiavi di riferimento per collegare le fonti. 

Anche questo è un passaggio critico del processo di analisi, poiché può aiutarci a scoprire nuove relazioni e tendenze che non sarebbero evidenti se i dati fossero analizzati separatamente.

Data Wrangling: le tecniche

Vediamo ora in maniera più approfondita le tecniche da impiegare nel processo di Data Wrangling.

Normalizzazione dei dati

La prima è la normalizzazione, e si riferisce al processo di trasformazione dei dati in modo che soddisfino determinati requisiti o criteri, al fine di renderli coerenti e confrontabili.

Immaginiamo ora un progetto finalizzato all’ottimizzazione della linea di produzione di ciambelle.

Come prima cosa abbiamo definito delle metriche standard, come il tempo medio del ciclo di realizzazione del prodotto, quello di inattività, e il tasso di scarto.

Il primo lo calcoliamo come il tempo medio necessario per produrre un’unità del prodotto finale

Rileviamo il tempo di produzione di ogni unità, e poi calcoliamo la media.

Prima ancora abbiamo definito il punto di inizio e di fine del periodo di produzione di ogni unità.

Il secondo lo calcoliamo come il tempo medio durante il quale la linea di produzione non è in funzione a causa di guasti o manutenzioni

Rileviamo il tempo di inattività dovuto a questi, per poi fare la media.

Il terzo lo calcoliamo come la percentuale di prodotto finale che non soddisfa i requisiti di qualità definiti.

Altro aspetto da tenere in considerazione è la scala per il calcolo delle tempistiche, che deve essere coerente per tutti i dati raccolti e inseriti nel dataset.

Ad esempio dobbiamo decidere quanto devono essere precisi i tempi: al minuto, al secondo, al centesimo, e così via.

Una volta fatto ciò, dobbiamo mantenere la metrica per tutti i dati raccolti e analizzati.

Ora che abbiamo definito le metriche e raccolto i dati possiamo vedere se le informazioni sono coerenti e accurate con quanto abbiamo precedentemente definito.

Eliminazione dei dati

La seconda tecnica di Data Wrangling riguarda l’eliminazione dei dati.

Qui ci focalizziamo sulla rimozione delle informazioni inutili, incomplete, ridondanti o errate presenti all’interno del dataset

Se vi sono dati mancanti (ad esempio un valore di una determinata metrica che non è stato registrato), le informazioni possono essere eliminate.

Se mancano dati riguardo la produzione di alcune unità (perché non sono stati registrati o sono andati persi), si possono cancellare le righe dal dataset. 

Tuttavia, se il numero di informazioni mancanti è elevato, potrebbe essere necessario rivalutare la validità dell’intero dataset.

Altra operazione di cancellazione riguarda i dati duplicati.

Ad esempio se le informazioni di una stessa unità di produzione sono state registrate più volte, queste devono essere eliminate.

Altri valori che da eliminare sono i cosiddetti outlier.

Se vi sono valori molto distanti dal resto dei dati (ad esempio perché sono stati causati da errori di registrazione o da problemi tecnici durante la produzione), li si può eliminare dal dataset.

Non è però così semplice individuare gli outlier da cancellare.

Se si tratta di un evento unico può essere necessario mantenere l’outlier nei dati raccolti, in quanto questa sarebbe una casistica reale da tenere in considerazione, mentre se si tratta di una problematica frequente (quindi un errore tecnico di raccolta), può essere opportuno intervenire sulla linea di produzione per prevenire la presenza di outlier in futuro.

Dobbiamo tenere sempre ben presente che l’eliminazione di dati potrebbe comportare una riduzione del numero di informazioni disponibili per gli algoritmi, e quindi ridurre la precisione e l’affidabilità delle previsioni.

Correzione dei dati

Infine, potremmo dover correggere i dati.

Questa attività va fatta solo in caso di errori evidenti o incongruenze nel dataset che possono influenzare l’analisi

Se mancano dati o sono presenti valori anomali che non possono essere spiegati, potrebbe esserci stato un errore di inserimento. 

In questo caso dobbiamo cercare di correggere il valore mancante o errato basandoci su dati precedenti o successivi, oppure, se possibile, ottenere il valore mancante da una fonte affidabile

La correzione dei dati va fatta con molta attenzione, perché qualsiasi modifica può avere un impatto significativo sull’analisi e sulle conclusioni che se ne possono trarre. 

Data Wrangling: un esempio

Vediamo ora un esempio di Data Wrangling che riguarda un’azienda di produzione di componenti meccanici che ha come obiettivo quello di ottimizzare i costi di produzione.

Come sempre partiamo dalla raccolta dei dati.

Iniziamo raccogliendo i dati relativi a costi di produzione, materiali utilizzati, tempi di produzione, costi dei fornitori, tariffe energetiche, ore di lavoro, tariffe dei trasporti e materie prime. 

Raccogliamo anche informazioni sulle attrezzature utilizzate e sulla manutenzione necessaria per mantenerle efficienti.

Una volta fatto ciò, procediamo alla pulizia, ovvero eliminiamo eventuali dati duplicati, incompleti o non validi, che possono appartenere ad esempio a fornitori che non esistono più o a materiali non più usati.

In seguito, normalizziamo i dati per assicurarci che siano coerenti e confrontabili. 

Potrebbero esserci informazioni su ore di lavoro espresse in diversi formati (ad esempio ore e minuti, o ore decimali), e va scelto un formato unico per l’analisi.

Esploriamo i dati per capire meglio i costi e le dinamiche di produzione dell’azienda. 

Esaminiamo le distribuzioni di costo dei materiali, i tempi di produzione per ogni componente, la frequenza di guasti alle attrezzature e altre informazioni utili.

Utilizziamo tecniche di analisi per identificare le correlazioni tra le variabili (per scoprire ad esempio se il costo dei materiali è correlato ai tempi di produzione, o il consumo di energia alla produzione di componenti).

Tutte queste azioni devono essere ben ponderate, in quanto avranno un impatto significativo sulle analisi degli algoritmi di Machine Learning.

Ogni operazione va documentata per giustificare e comprendere i risultati degli algoritmi e apportare le opportune correzioni.

Il processo di Data Wrangling è determinante per il successo o il fallimento del progetto di analisi.

Data Wrangling: i possibili errori

Essendo il Data Wrangling un processo importante per la preparazione dei dati, è anche una delle attività più complesse e lunghe da svolgere. 

Diversi errori possono sorgere durante il percorso, e avere un impatto negativo sull’analisi.

Scarsa attenzione ai dati mancanti

Uno degli errori più comuni riguarda la scarsa attenzione ai dati mancanti. 

Quando si lavora con grandi dataset può essere facile ignorare i valori che mancano, i quali possono influire sul risultato finale, cioè sulle previsioni degli algoritmi. 

Per evitare questo problema è importante usare tecniche di imputazione dei dati, come la sostituzione dei valori mancanti con la media o il valore massimo del set.

Uso di fonti inaffidabili

Un altro errore comune è l’uso di fonti di dati inaffidabili. 

Se queste non sono state verificate, i risultati dell’analisi potrebbero essere errati. 

Dobbiamo quindi assicurarci che le fonti siano attendibili e le informazioni coerenti e accurate.

Altri errori comuni

Altri errori comuni sono l’errata normalizzazione dei dati, la codifica in modo improprio, e la selezione di metriche di valutazione inadeguate. 

Tuttavia, questi problemi possono essere risolti attraverso la pianificazione, l’organizzazione e una verifica accurata.

Conclusioni

Il Data Wrangling è una fase essenziale nella preparazione dei dati per gli algoritmi di apprendimento automatico. 

Abbiamo visto quanto sia importante utilizzare le tecniche di normalizzazione, di eliminazione dei valori mancanti, di rimozione dei duplicati, di codifica, e di formattazione dei dati.

È fondamentale prestare attenzione ai dettagli: utilizzare fonti affidabili e adottare tecniche di imputazione appropriate per garantire che i risultati siano validi.

Noi di DataDeep, mettiamo a disposizione la nostra esperienza attraverso consulenze personalizzate, progettate per adattarsi perfettamente alle tue necessità specifiche e per trasferire il know-how necessario a instaurare una cultura aziendale orientata ai dati.

Il nostro intento è quello di equipaggiare la tua azienda con le conoscenze e le abilità richieste per muoversi con dimestichezza nel contesto Data-Driven e nella gestione dei bias, fornendo gli strumenti per sfruttare al massimo le potenzialità offerte dai dati.

Se vuoi scoprire come possiamo supportarti nello sviluppo del tuo progetto, offrendo una panoramica dettagliata delle nostre aree di competenza e dei servizi disponibili, ti invitiamo a visitare: DataDeep – Studio di fattibilità

Da qui potremmo iniziare a mettere le basi di un approccio orientato ai dati per ogni processo aziendale.