Skip to main content

Ti ho già parlato dei bias nel precedente articolo: Bias cognitivi: che cosa sono e come possono influenzare un progetto di Data Science

Come abbiamo visto, i bias sono un aspetto con cui dobbiamo convivere ogni giorno.

Non possiamo eliminarlo, ma al massimo ridurlo stabilendo un quadro di governance ben strutturato.

Ognuno di noi ha preferenze, simpatie, antipatie e diversi punti di vista, e non dobbiamo quindi sorprenderci se si creano dei pregiudizi nei nostri processi di analisi dei dati.

Se non li controlliamo rischiamo però di creare modelli di Machine Learning distorti e imprecisi.

I dati ci aiutano a capire i clienti, a gestire le risorse, a ottimizzare i processi, e ad affrontare i cambiamenti quotidiani del mercato in cui operiamo. 

Se mi segui da tempo sai quanto Machine Learning e Intelligenza Artificiale stiano diventando sempre più importanti per le aziende.

Dobbiamo però essere consci che informazioni alterate dai bias possono generare distorsioni (spesso difficili da rilevare) nei modelli di apprendimento automatico.

Il pregiudizio può insinuarsi negli algoritmi in diversi modi, e può essere introdotto durante ogni fase del processo di Data Science (dalla raccolta all’elaborazione dei dati, dall’analisi alla modellazione).

AI bias: tipologie

Per ridurre il rischio di errore dobbiamo sapere quali sono i pregiudizi che possono finire nei nostri modelli di Machine Learning

Conoscere le varie tipologie di bias può aiutarci a identificare (e potenzialmente risolvere) alcuni dei problemi che generano risultati distorti, imprecisi o inappropriati.

Molte organizzazioni raccolgono dati in diverse forme: numerici, testuali, immagini, grafici o audio.

Il modo in cui raccogliamo i dati può introdurre pregiudizi nel linguaggio utilizzato in ciascuno di questi formati. 

Ad esempio, un grafico etichettato in modo errato può portare a dati di input sbagliati, con conseguenti conclusioni distorte del modello di apprendimento automatico.

La raccolta dei dati soffre comunemente di pregiudizi che portano alla sovrarappresentazione o alla sottorappresentazione di determinati gruppi o categorie. 

Ciò è particolarmente vero quando più set di dati vengono combinati per l’utilizzo in forma aggregata. 

È possibile trovare anomalie in piccoli set di dati, ma diventa estremamente complicato individuarle in quelli di grandi dimensioni.

Questo si traduce in modelli che mostrano pregiudizi a favore o sfavore di determinate categorie

Il bias di modellazione può verificarsi quando determinati tipi di dati sono sovrarappresentati o, al contrario, quando altri tipi di dati sono sottorappresentati in base alla loro effettiva presenza nel set.

Ci sono molti modi in cui il pregiudizio può trovare la sua strada. 

Ecco alcune delle distorsioni più comuni che possiamo riscontrare in un processo di Data Science:

  • Bias di selezione, in cui è più probabile che determinati individui, categorie o gruppi vengano selezionati in base all’area problematica o ai mezzi di raccolta dei dati.
  • Bias di esclusione, in cui determinati individui, categorie o gruppi sono esclusi dalla selezione intenzionalmente o meno, in base ai metodi di raccolta dei dati.
  • Bias di segnalazione, in cui è più o meno probabile che determinate osservazioni vengano riportate in base alla natura dei dati, risultando in set che non rappresentano la realtà.
  • Bias di conferma, in cui i raccoglitori di dati distorcono i loro metodi di analisi in un modo che viene manipolato o travisato per dimostrare un presupposto predeterminato, con una tendenza a concentrarsi sulle informazioni che confermano i propri preconcetti.

In un esempio che ha toccato molti di questi pregiudizi, Amazon ha creato un modello di reclutamento sperimentale che ha favorito i candidati maschi rispetto alle femmine. 

Gran parte delle precedenti assunzioni erano maschili, il che ha distorto le decisioni. 

Amazon ha fermato il modello prima di metterlo in produzione.

Allo stesso modo, l’algoritmo introdotto da Apple nel 2019 sembrava offrire linee di credito inferiori alle donne rispetto agli uomini.

Come rilevare i bias nei dati

I sistemi di Intelligenza Artificiale imparano a prendere decisioni sulla base di dati di addestramento che possono includere decisioni umane distorte o riflettere disuguaglianze storiche o sociali (anche se vengono rimosse variabili come genere, razza, posizione geografica o orientamento sessuale).

Dobbiamo quindi cercare di ridurre la possibilità di riscontrare set di dati distorti in tutte le fasi della pipeline.

Distorsione dei dati nella fase di raccolta

Durante il processo di raccolta sono molte le probabilità di introdurre distorsioni, poiché non tutti i dati hanno la medesima rappresentazione.

Alcune fonti potrebbero fornire dati incompleti, mentre altre non essere rappresentative del mondo reale o del set di dati di modellazione.

Distorsione dei dati nella fase di preparazione

Anche l’elaborazione dei dati, compresa la preparazione e l’etichettatura, può introdurre distorsioni.

La preparazione dei dati include la rimozione o la sostituzione di quelli non validi o duplicati

Sebbene ciò possa aiutare a eliminare le informazioni irrilevanti, corriamo il rischio di rimuovere accidentalmente dati fondamentali.

L’anonimizzazione dei dati (che rimuove le informazioni identificabili come la razza o il sesso) aiuta a proteggere la privacy delle persone, e rende più difficile rilevare o invertire i pregiudizi su tali variabili.

Distorsione dei dati nella fase di etichettatura

L’etichettatura dei dati è il processo di aggiunta di etichette a dati non strutturati, in modo che un computer possa elaborare e dare un senso alle informazioni.

Tuttavia, l’etichettatura si basa su una combinazione di tecnologia e persone.

Se un individuo etichetta erroneamente un’immagine, o utilizza la propria discrezione per la traduzione o l’etichettatura, potrebbe introdurre pregiudizi nei dati.

Per ridurre al minimo gli errori le organizzazioni dovrebbero assicurarsi di disporre di controlli ed equilibri, e non fare affidamento solo su un unico etichettatore.

Distorsione nella fase di modellazione dei dati

I modelli di Machine Learning sono soggetti a falsi positivi e falsi negativi.

È importante tenerlo in considerazione quando cerchiamo di capire se i dati hanno pregiudizi, specialmente quando particolari gruppi mostrano un’eccessiva sensibilità ai falsi positivi o ai falsi negativi.

Esplorando più tecniche di modellazione, più algoritmi, l’uso di modelli ensemble, modifiche agli iperparametri e altri fattori, possiamo raggiungere livelli più elevati di accuratezza del modello.

Strutture di governance e quadri etici

Come abbiamo detto in precedenza, anche se siamo molto diligenti non possiamo eliminare del tutto i pregiudizi dai dati

Dobbiamo perciò creare strutture di governance e quadri etici, in grado di fornire una supervisione organizzativa delle operazioni chiave e aiutare a sensibilizzare le persone sui potenziali problemi di distorsione dei dati.

Prima di implementare modelli aziendali nella produzione del mondo reale dobbiamo stabilire processi e pratiche per identificare – e quindi mitigare – i bias negli algoritmi e nei sistemi di apprendimento automatico, e gestire i modelli che potrebbero presentare rischi imprevisti.

Stabilire queste pratiche nel quadro di governance del nostro progetto è fondamentale.

Queste strutture sono spesso approcci su più fronti, che includono una componente tecnica che consente agli strumenti di aiutare a identificare potenziali fonti di distorsione e rivelare le caratteristiche dei dati che influiscono sull’accuratezza dei modelli. 

Questi strumenti possono anche indicare come possiamo comprendere la raccolta e le operazioni dei dati, identificare potenziali punti di introduzione di pregiudizi, e assicurarci che questi siano presentati in modo trasparente.

Dobbiamo anche aggiungere più diversità nei nostri team per incorporare culture e punti di vista diversi. 

Possiamo anche consultare scienziati sociali, filosofi e altri esperti pertinenti, per comprendere meglio e tenere conto delle varie prospettive.

Conclusioni

Occorre fornire consapevolezza sui limiti delle tecnologie che introduciamo in azienda per non rischiare di approcciare in maniera sbagliata l’Intelligenza Artificiale.

Ho già spiegato quali sono i rischi di fallimento nei progetti di Data Science: conoscerli aiuta a minimizzare i risultati negativi.

Non è solo una questione tecnica, ma una vera e propria rivoluzione culturale.

Noi di Karon possiamo aiutarti a creare un progetto di Data Science strutturato, che riduca al minimo l’influenza dei bias grazie a un metodo consolidato nel tempo.

Se vuoi conoscerci e avere più informazioni su cosa possiamo fare per te prenota una videocall o contattaci per organizzare un incontro in presenza presso la tua azienda!

Ecco come si svolgerà:

  1. Analizzeremo il problema

    Per comprendere meglio cosa possiamo fare per te dobbiamo capire qual è il problema della tua organizzazione.
  1. Comprenderemo quanto ti manca

    Per capire se hai tutte le informazioni necessarie per raggiungere l’obiettivo dobbiamo sapere quanto la tua azienda è digitalizzata, quante informazioni hai, e a che livello tecnologico ti trovi.
  1. Studieremo le basi del progetto

    Stabiliremo insieme le basi del progetto. Non devi preoccuparti di avere già tutto chiaro o pensare di avere tutte le informazioni necessarie, saremo noi a porti le domande giuste per mettere a fuoco i passi successivi!

Prima si condividono gli obiettivi e i dati, prima si ottengono risultati mai visti!

Non aspettare ancora