Skip to main content

Nell’universo dei dati, la presenza ricorrente di informazioni mancanti rappresenta un problema che può minare seriamente la solidità delle nostre conclusioni

L’incuria nel gestire questa problematica può compromettere la qualità e l’affidabilità delle nostre elaborazioni, influenzando negativamente le decisioni basate sui risultati ottenuti.

Per poter gestire nel migliore dei modi questa problematica abbiamo deciso di scrivere questo articolo, che si propone di fornire una guida per affrontare il tema dei dati mancanti, definendo una serie di attività fondamentali da compiere. 

Il nostro obiettivo è quello di garantire analisi complete, che permettano di prendere decisioni accurate, imparando a identificare le lacune, a valutarne l’impatto, e ad adottare strategie mirate per la raccolta e il trattamento delle informazioni mancanti.

Esistono diverse tecniche avanzate per gestire eventuali dati mancanti, come l’eliminazione, l’imputazione statistica e l’utilizzo di fonti alternative, ma se affrontiamo le cause alla radice possiamo evitare di utilizzare tecniche complesse che potrebbero non rispecchiare la realtà.

Per fare ciò è importante implementare misure preventive che prevengano e limitino la mancanza di dati. 

Cruciale è progettare adeguate strutture di raccolta e attuare un rigoroso controllo qualità per evitare il problema fin dall’origine.

Dati mancanti: come li identifichiamo

Ma cosa intendiamo quando parliamo di “dati mancanti”? E quali forme possono assumere?

I dati mancanti rappresentano una condizione in cui uno o più valori all’interno del nostro dataset non sono disponibili o sono incompleti

Questo vuol dire che in alcune celle o campi, invece di avere un valore numerico o alfanumerico valido, troviamo vuoto, un segnaposto, o un valore speciale che indica l’assenza di informazioni.

Le forme che i dati mancanti possono assumere variano in base al tipo di dataset e al contesto di raccolta. 

Alcune delle forme comuni di dati mancanti includono:

  • Celle vuote
    In alcuni casi, le celle dei dati possono essere completamente vuote, senza alcun dato inserito. Questo si verifica quando non è stato possibile ottenere o registrare le informazioni corrispondenti.

  • Segnaposto speciali
    Invece di lasciare una cella vuota possono essere utilizzati segnaposto speciali come “NaN” (Not a Number) o “null” per indicare che il dato non è presente.

  • Codici speciali
    In determinati contesti possono essere impiegati codici speciali o simboli specifici per rappresentare dati mancanti, in modo da differenziarli da altri valori validi.

  • Risposte mancanti
    Nei casi di indagini o questionari i dati mancanti possono verificarsi quando i partecipanti non forniscono risposte per determinate domande non completando le informazioni come richiesto dalle buone pratiche.

  • Informazioni non disponibili
    Talvolta alcuni dati potrebbero non essere disponibili a causa di restrizioni di privacy, limitazioni tecniche o altre ragioni.

La comprensione delle diverse forme di dati mancanti è fondamentale per affrontare questa problematica in modo efficace, in quanto i metodi di gestione e trattamento possono variare a seconda del tipo di mancanza e del contesto dell’analisi.

Le cause possono essere diverse, e possono dipendere da molteplici fattori.

Comprendere le ragioni alla base della mancanza di dati nel nostro dataset è essenziale per adottare strategie adeguate per gestire questa problematica. 

Alcune delle possibili cause di dati mancanti includono:

  • Errori umani durante la raccolta delle informazioni
    La mancanza di dati può derivare da errori commessi durante il processo di raccolta, inserimento o registrazione delle informazioni. Errori di digitazione, omissioni o confusioni possono portare all’assenza di valori nel dataset.

  • Problemi tecnici e guasti
    Malfunzionamenti tecnici o guasti durante il processo di acquisizione, trasmissione o memorizzazione possono causare la perdita di informazioni e contribuire alla mancanza di dati.

  • Dati sensibili o non disponibili
    In alcune situazioni, alcuni dati potrebbero non essere disponibili perché sono di natura sensibile o sono stati omessi volontariamente dai partecipanti o dai fornitori per motivi di privacy o altre ragioni.

  • Campionamento selettivo
    Nelle indagini o ricerche campionarie i dati mancanti possono verificarsi quando alcune unità del campione non sono raggiungibili o rifiutano di partecipare, causando una mancanza di informazioni per quelle specifiche unità.

  • Dati non registrati
    In alcuni casi determinati dati potrebbero non essere stati registrati o non essere disponibili, in quanto trascurati o non rilevanti per il contesto specifico.

  • Dati mancanti non segnalati
    A volte i dati mancanti possono essere omessi senza alcuna indicazione specifica, rendendo difficile riconoscerli e trattarli adeguatamente.

Riconoscere le diverse cause dei dati mancanti è cruciale per adottare soluzioni appropriate al fine di trattare questa problematica. 

Un’analisi approfondita delle cause ci aiuta a stabilire se i dati mancanti sono casuali o se ci sono pattern sistematici che influenzano le decisioni riguardanti le tecniche di gestione e trattamento.

Il problema dei dati mancanti può avere conseguenze significative sulle nostre analisi, e influenzare i risultati ottenuti in diversi modi.

È quindi cruciale comprendere l’impatto di queste mancanze per prendere decisioni informate riguardo al modo migliore per trattare i dati. 

Alcuni degli effetti principali dei dati mancanti includono:

  • Riduzione della dimensione del campione
    I dati mancanti possono portare alla perdita di informazioni e di osservazioni nel nostro dataset, riducendo la dimensione del campione su cui si basano le nostre analisi. Ciò può comportare una minore rappresentatività e una potenziale perdita di precisione nelle conclusioni tratte.

  • Introduzione di bias e distorsioni
    La mancanza di dati può introdurre bias nel campione, creando distorsioni nei risultati delle analisi. Se i dati mancanti non sono casuali, ma sono legati a particolari caratteristiche o circostanze, potrebbero influenzare in modo non rappresentativo i risultati delle analisi.

  • Perdita di informazioni preziose
    I dati mancanti possono contenere informazioni preziose e rilevanti per l’analisi. La loro assenza può limitare la nostra capacità di comprendere completamente il fenomeno in studio, portando a conclusioni incomplete o fuorvianti.

  • Imprecisione delle stime e dei modelli
    La presenza di dati mancanti può influenzare negativamente la precisione delle stime statistiche e dei modelli predittivi. Il trattamento inappropriato dei dati mancanti potrebbe portare a risultati poco affidabili e a conclusioni errate.

  • Interpretazioni errate dei risultati
    L’ignorare o trattare in modo non adeguato i dati mancanti può portare a interpretazioni sbagliate o erronee dei risultati dell’analisi. Questo può avere conseguenze gravi, specialmente quando si prendono decisioni importanti basate sulle analisi.

È fondamentale comprendere l’impatto dei dati mancanti e adottare approcci adeguati per gestirli correttamente, scegliendo le giuste tecniche come l’imputazione o l’eliminazione selettiva che aiutano a mitigare gli effetti negativi garantendo analisi accurate, affidabili e informative.

Tecniche di gestione dei dati mancanti

Ci sono diverse tecniche avanzate che possiamo utilizzare per completare le informazioni mancanti e ottenere analisi di valore.

La prima tecnica che vediamo è l’eliminazione dei dati.

L’eliminazione dei dati mancanti è una delle strategie più semplici e immediate per gestire la mancanza di informazioni nel nostro dataset.

Questa opzione comporta la rimozione delle righe o delle colonne che contengono almeno un valore mancante.

Tuttavia, la decisione di eliminare i dati mancanti va ponderata attentamente in base al contesto e alle caratteristiche specifiche del dataset, poiché può comportare conseguenze rilevanti. 

Vediamo quindi i casi in cui l’eliminazione dei dati mancanti è appropriata:

  • Righe con dati mancanti casuali
    Se i dati mancanti si verificano casualmente e non presentano alcuna relazione sistematica con altre variabili nel dataset, l’eliminazione delle righe contenenti tali mancanze potrebbe essere una scelta ragionevole. In questo caso, la rimozione delle osservazioni mancanti non dovrebbe influenzare in modo significativo le analisi e le conclusioni tratte dai dati rimanenti.

  • Colonne con dati mancanti e variabili non rilevanti
    Se una colonna contiene la maggior parte dei suoi dati mancanti e la variabile è ritenuta non rilevante per l’analisi o non fornisce contributi significativi, l’eliminazione dell’intera colonna potrebbe semplificare il dataset senza compromettere le analisi essenziali.

  • Dataset sufficientemente ampio
    Se il dataset è abbastanza ampio, la rimozione delle righe o delle colonne con dati mancanti potrebbe avere un impatto limitato sulla dimensione e sulla rappresentatività di quelli restanti. In questo caso, l’eliminazione può essere una scelta accettabile senza compromettere la validità delle analisi.

La seconda tecnica che possiamo utilizzare per gestire i dati mancanti è l’imputazione.

L’imputazione è una strategia fondamentale per gestire la mancanza di informazioni nel nostro dataset. 

Questo processo prevede di stimare i valori mancanti utilizzando le informazioni disponibili da altre variabili correlate nel dataset

L’obiettivo è quello di mantenere la completezza del dataset e fornire valori plausibili per i dati che mancano, consentendo un’analisi più accurata e affidabile. 

Vediamo quelle che sono le possibili tecniche di imputazione:

  • Imputazione media o mediana
    Con questa tecnica i dati mancanti di una variabile vengono sostituiti con il valore medio o mediano della variabile stessa. Questo approccio è semplice, e funziona bene quando i dati mancanti sono casuali e la distribuzione della variabile non è fortemente influenzata da valori anomali.

  • Imputazione con regressione
    In questo metodo i dati mancanti di una variabile vengono stimati utilizzando una regressione lineare o logistica basata su altre variabili correlate. Questo approccio è utile quando esiste una relazione lineare tra la variabile con dati mancanti e altre variabili del dataset.

  • Imputazione basata su modelli statistici
    Questa tecnica coinvolge la creazione di modelli statistici complessi per stimare i dati mancanti. Modelli come regressione multipla, alberi decisionali o metodi di Machine Learning sono utilizzati per questo scopo, permettendo una stima più accurata dei dati mancanti.

  • Imputazione basata su clustering
    Questo approccio prevede di suddividere i dati in cluster simili, e quindi stimare i dati mancanti utilizzando le informazioni da altri membri del cluster. Questa tecnica è utile quando i dati mancanti sono correlati a specifici gruppi di osservazioni.

  • Imputazione multipla
    L’imputazione multipla coinvolge la creazione di diverse copie del dataset, ciascuna con un’imputazione diversa dei dati mancanti. Queste copie vengono quindi analizzate separatamente, e i risultati combinati per ottenere stime più robuste e affidabili.

È importante sottolineare che la scelta della tecnica di imputazione dipende dalle caratteristiche del dataset, dalle relazioni tra le variabili, e dalla natura dei dati mancanti. 

Questa tecnica deve essere eseguita con attenzione, evitando di distorcere la distribuzione delle informazioni o di introdurre bias nei risultati dell’analisi. 

Oltre alle tecniche di imputazione tradizionali, esistono metodi statistici avanzati che offrono approcci più sofisticati ed efficaci per gestire i dati mancanti. 

Questi metodi sono stati sviluppati per affrontare sfide specifiche associate alla mancanza di informazioni nei dataset, e possono fornire stime più accurate e affidabili. 

Ad esempio, i metodi basati su modelli probabilistici (come i modelli Bayesiani) consentono di incorporare informazioni a priori sulle distribuzioni delle variabili e di ottenere stime ponderate e maggiormente realistiche.

L’imputazione con “Markov Chain Monte Carloutilizza l’algoritmo MCMC per campionare le stime multiple dei dati mancanti in modo iterativo.

L’approccio MCMC considera l’incertezza dell’imputazione e produce stime multiple, fornendo una valutazione robusta della variabilità nei risultati dell’imputazione.

Anche i metodi di regressione multivariata usano variabili correlate per catturare le relazioni complesse, producendo stime più precise.

Un’altra tecnica che può essere utilizzata è il “K-Nearest Neighbors” (o K-NN), che utilizza le informazioni dai vicini più prossimi (o Random Forest), e si basa sull’impiego di alberi di decisione per stimare i dati mancanti.

L’utilizzo di metodi statistici avanzati offre sicuramente una maggiore flessibilità e precisione nel trattamento dei dati mancanti, consentendo una gestione accurata e sofisticata di questa problematica.

Dati mancanti: prevenire è meglio che curare 

Se quelle che abbiamo visto finora erano tutte attività per “curare” le informazioni mancanti, prevenire è certamente la soluzione migliore.

Per garantire una gestione adeguata della mancanza di dati non possiamo affidarci esclusivamente alla tecnologia. 

La prevenzione richiede un impegno accurato fin dalle prime fasi del processo, soprattutto nella raccolta, gestione e progettazione dell’infrastruttura.

Una corretta progettazione del processo di raccolta dei dati, unita a un’attenta gestione delle informazioni, rappresentano il fondamento che riduce la probabilità di raccogliere dati incompleti o errati

Durante la fase di raccolta è di fondamentale importanza definire chiaramente le variabili e specificare i formati, oltre che le regole di gestione. 

Domande ben formulate e una comunicazione precisa con le parti coinvolte possono ridurre errori e omissioni delle informazioni necessarie per le nostre analisi.

L’implementazione di procedure di controllo durante la raccolta e l’ingresso dei dati è altrettanto importante. 

Controlli come la validazione dei formati, l’uso di range di valori accettabili e la verifica della coerenza delle risposte possono ridurre gli errori umani e garantire la completezza delle informazioni.

La corretta gestione dei dati, inclusa la pulizia e la standardizzazione, aiuta a individuare e correggere dati mancanti o non validi prima che possano influenzare le analisi

L’impiego di procedure automatizzate e di strumenti di gestione semplifica il processo e garantisce l’integrità dei dati.

Inoltre, l’infrastruttura di raccolta e gestione deve essere progettata con l’obiettivo di prevenire dati mancanti.

L’uso di chiavi primarie e vincoli permette di garantire l’integrità referenziale e la corretta organizzazione delle informazioni.

La prevenzione della mancanza di dati richiede uno sforzo strategico consapevole fin dall’inizio del processo, che grazie a una pianificazione attenta di procedure di controllo contribuisce a garantire che i dati raccolti siano completi, accurati e affidabili, riducendo la probabilità di dati mancanti e migliorando la qualità delle analisi e delle decisioni basate su di essi.

Verifica della precisione dei dati

È fondamentale garantire che le misurazioni siano effettuate in modo accurato e coerente, tramite l’utilizzo di strumenti calibrati e regolari controlli delle fonti per evitare dati fuorvianti o inesatti.

Ad esempio, la nostra azienda di automobili ha implementato una procedura rigorosa di calibrazione dei macchinari, compresi gli strumenti di misurazione impiegati per controllare la qualità dei componenti delle vetture

Questo controllo periodico delle apparecchiature ci assicura la precisione delle misurazioni e riduce la probabilità di dati mancanti o errati dovuti a strumenti non accurati.

Addestramento del personale

Per assicurarci che il personale coinvolto nella raccolta dati sia adeguatamente preparato per un processo di qualità, è essenziale fornire una formazione approfondita sulle procedure di raccolta, sui formati richiesti e sulle norme di registrazione delle informazioni

Solo attraverso una formazione accurata possiamo garantire che tutto ciò avvenga in modo efficace ed efficiente, assicurandoci che le informazioni raccolte siano affidabili e coerenti.

Ad esempio, la nostra azienda di dispositivi elettronici addestra il personale di produzione sulle tecniche di controllo e sul corretto inserimento dei dati nei registri di produzione.

Questa formazione ha ridotto la possibilità di dati mancanti o inesatti causati da errori umani nella raccolta dei dati.

Monitoraggio dei processi produttivi

Implementare sistemi di monitoraggio in tempo reale dei processi produttivi permette di rilevare tempestivamente anomalie o deviazioni dai parametri prestabiliti. 

Ciò aiuta a identificare potenziali fonti di dati mancanti o errati, e a prendere provvedimenti correttivi immediati.

Ad esempio, la nostra azienda che produce cibo usa sensori e sistemi di monitoraggio nel processo di confezionamento per rilevare eventuali deviazioni nella quantità e nel peso dei prodotti confezionati. 

In caso di incongruenze, il sistema segnala automaticamente la possibile presenza di dati mancanti o errati, consentendoci di intervenire tempestivamente.

Verifica incrociata dei dati

Incrociare i dati provenienti da diverse fonti o sistemi può aiutare a individuare incongruenze o discrepanze nelle informazioni raccolte. 

Una verifica incrociata dei dati può contribuire a identificare potenziali dati mancanti o errati.

Ad esempio, la nostra azienda di elettrodomestici incrocia i dati di produzione con i dati relativi alle scorte di materiali

Una quantità di prodotti finiti superiore alla quantità di materiali utilizzati può essere un segnale di possibili dati mancanti nella registrazione delle materie prime utilizzate durante la produzione.

Implementazione di sistemi di notifica

L’utilizzo di sistemi di notifica automatici può aiutare a segnalare tempestivamente dati mancanti o incoerenti, consentendo una rapida azione correttiva.

Ad esempio, la nostra azienda che produce articoli in plastica usa un sistema di notifica che avverte il personale di produzione quando vengono rilevate anomalie nei dati relativi alla temperatura e alla pressione delle macchine di stampaggio

Questo alert consente di prendere provvedimenti correttivi per evitare dati mancanti o errati che potrebbero compromettere la qualità dei prodotti.

Queste attività preventive ci aiutano a evitare dati mancanti e a garantire la precisione e l’integrità delle informazioni raccolte. 

Tramite la verifica della precisione delle misurazioni, la formazione del personale, il monitoraggio dei processi produttivi, la verifica incrociata dei dati e l’uso di sistemi di notifica possiamo ottenere dati più affidabili e completi, ed evitare di porre rimedio tramite tecniche che potrebbero non rispecchiare correttamente la realtà effettiva.

Che cosa fare allora?

Le tecnologie e le tecniche avanzate sono sicuramente uno strumento utile se i dati a nostra disposizione sono incompleti e il tempo dell’analisi è breve.

Ma se vogliamo realmente evitare informazioni mancanti dobbiamo lavorare nelle fasi precedenti, ossia in quelle di raccolta e gestione dei dati.

Per ottenere risultati più vicini alla realtà e accurati dobbiamo lavorare fin da subito, introducendo una cultura del dato a tutti gli stakeholders aziendali.

Ma come si può fare?

Noi di DataDeep abbiamo realizzato un videocorso gratuito dal titolo “Come estrarre il valore dai dati della tua azienda.

Questo videocorso ti spiega cosa fare per ottenere risultati di valore e acquisire una cultura aziendale Data Driven.

Sono 14 lezioni, consegnate direttamente nella tua casella di posta elettronica ogni settimana, per 14 settimane, tutti i martedì alle 7:00.

Non parleremo dei trend del momento come Chat GPT o altre Intelligenze Artificiali generative, ma piuttosto dell’Intelligenza Artificiale che veramente serve alle aziende di produzione.

I tanti compiti ripetitivi, faticosi e a basso valore aggiunto possono essere sostituiti da macchine intelligenti, mentre il tempo degli operai e degli impiegati può essere dedicato ad attività di maggior valore per l’azienda.

Ora, abbiamo tre ottime notizie per te:

  1. Il corso è gratuito e puoi disiscriverti quando vuoi
  2. Il corso parla di quali sono gli strumenti necessari per sfruttare i dati e dell’Intelligenza Artificiale che realmente serve all’azienda
  3. Il corso avrà anche delle lezioni bonus che integreremo nel tempo per mantenerlo sempre aggiornato

Come ci si iscrive? È molto semplice!

Ti basta cliccare qui e lasciare la tua migliore email nel form che trovi nella pagina!

Una volta iscritto riceverai subito un messaggio di benvenuto con le informazioni sulle tematiche del corso, e un’ulteriore email con la prima lezione.

Inizia subito a entrare nel mondo della scienza dei dati!

Hai domande o feedback?

Se hai delle domande sugli argomenti trattati in questo articolo, oppure vuoi inviarci un feedback su un argomento che vorresti conoscere, non esitare a scriverci a questa email: ai@datadeep.it