Skip to main content

Classificare i dati in azienda contribuisce a mantenere al sicuro le informazioni disponibili.

Esiste una gerarchia di livelli, a seconda delle finalità, che determina chi può accedere a cosa all’interno di una struttura organizzativa.

Alcune classificazioni sono soggette a leggi o normative legate al trattamento dei dati (come ad esempio quando gestiamo le informazioni personali dei dipendenti).

A prescindere dagli aspetti legali e di sicurezza, sono molte le ragioni per cui è bene creare una tassonomia. 

In questo articolo ti spiego quali sono le varie categorie di dati, con particolare attenzione alle procedure consigliate e a come automatizzarne la classificazione.

Classificazione dei dati: categorie

In genere i dati aziendali si suddividono in:

  • dati pubblici
  • dati interni
  • dati riservati
  • dati confidenziali 

I dati pubblici sono tutte quelle informazioni di carattere pubblico che possono essere condivise con chiunque, come ad esempio le informazioni dei servizi o prodotti offerti, i dati di contatto dell’azienda, il sito web, i rapporti sulle vendite, ecc.

I dati interni sono quelle informazioni che servono ai dipendenti e a chi lavora all’interno dei processi aziendali, come ad esempio email e comunicazioni interne, elenchi di dipendenti, rapporti interni (finanziari, vendite, elenco fornitori, ecc.), e tutto ciò che deve essere condiviso all’interno dell’organizzazione affinché ogni persona sia adeguatamente informata.

I dati riservati includono documenti di fusione e acquisizione, informazioni protette da accordi di non divulgazione e informazioni personali sensibili protette dalla legge (es. GDPR), come cartelle cliniche, finanziarie personali, indirizzi postali, e così via. 

I dati confidenziali sono fondamentali per la sopravvivenza dell’azienda: fughe di notizie o la mancanza di una protezione adeguata potrebbero portare a dirottamenti e accuse penali.

Per classificare ogni dato dobbiamo capirne la tipologia e definire il contesto in cui ci troviamo (metadati, fonte, formato e timestamp). 

Sui formati non abbiamo uno standard unico, ma possiamo trovare diverse modalità di archiviazione, come fogli Excel, video, documenti PDF e testo non elaborato. 

Per maggiore sicurezza, possiamo inoltre gestire i dati riservati tramite tecniche crittografiche

Pensiamo a quante informazioni vengono tracciate in una transazione con carta di credito: ubicazione dell’utente e del commerciante, categoria del commerciante, data, articolo acquistato, categoria dell’articolo, emittente della carta (banca), valore dell’articolo acquistato, tipo di transazione (online o punto vendita), e lo stato (accettata o non accettata). 

Tuttavia, i nomi dei titolari sono assenti, e i numeri di carta di credito crittografati.

Dobbiamo pensare alla classificazione di questi dati in base alla loro specificità, e non solo trattarli nell’insieme.

Altro aspetto da tenere in considerazione è il livello di aggregazione dei dati. 

Ad esempio, i rapporti delle vendite mensili possono essere pubblici o interni, in quanto in questo caso i dati sono puramente statistici e anonimi, ma le informazioni da cui derivano i risultati possono essere riservate, come ad esempio i dati dei singoli clienti.

Classificazione dei dati: automazione

La categorizzazione dei dati veniva tradizionalmente eseguita a mano (in genere dai reparti IT, finanziari o legali), e in molte aziende ancora oggi viene utilizzata questa metodica. 

Dato il crescente volume di informazioni si stanno però sviluppando approcci sempre più automatizzati, che rilevano i campi sensibili, come indirizzo email, numero di carta di credito e data di nascita. 

Con l’elaborazione del linguaggio naturale (NLP) possiamo classificare i documenti, strutturando i dati per assegnare automaticamente una particolare etichetta a un elemento.

Questo viene definito come un problema di classificazione supervisionata

Per risolverlo si utilizzano tecniche di addestramento e validazione, sfruttando i metodi ensemble (come XGBoost), i quali sono particolarmente efficienti in questi contesti. 

Naive Bayes è un algoritmo di base, utilizzato abitualmente, che ha in genere buone prestazioni, e che è stato usato per la prima volta per rilevare lo spam nei dati di posta elettronica.

Il primo passaggio consiste nel creare un elenco di tutti gli attributi (metadati) di un documento

Tali attributi includono il tipo (PDF, Excel, ecc.), l’autore (titolo professionale, società o organizzazione e indirizzo email), la fonte, la data di ricezione o creazione, l’ultimo aggiornamento, la dimensione, e la presenza di parole chiave specifiche nel testo o nella riga dell’oggetto.

È una buona strategia utilizzare un algoritmo con parametri che riducano al minimo i falsi negativi o documenti erroneamente classificati come pubblici. 

I documenti etichettati come non pubblici da un algoritmo possono essere rivisti manualmente per eliminare i falsi positivi.

È inoltre importante aggiornare costantemente l’elenco delle persone autorizzate ad accedere a dati specifici in base alla categoria.

La categorizzazione dei dati è una componente importante per qualsiasi azienda. 

Non è costosa da fare con l’automazione (o un approccio ibrido) e utilizzando tecniche o algoritmi di elaborazione del linguaggio naturale

Così facendo possiamo liberare il team legale o IT da un lavoro oneroso in termini di tempo. 

I rischi di non seguire le migliori pratiche di classificazione dei dati non sono insignificanti, in quanto possono causare problemi di sicurezza, perdita, furto o alterazione con potenziali controversie legali.

Conclusioni

Classificare i dati crea un vantaggio in azienda da tenere ben presente.

Pensare che sia una perdita di tempo significa non aver capito i rischi che si corrono, sia a livello di business che in termini legali.

Noi di Karon ti possiamo aiutare affinché il percorso di classificazione dei dati si svolga nel migliore dei modi, fornendo un metodo consolidato nel tempo e automatizzando i processi.

Se vuoi conoscerci e saperne di più su cosa possiamo fare per te prenota una videocall o contattaci per organizzare un incontro in presenza presso la tua azienda!

Ecco come si svolgerà:

  1. Analizzeremo il problema

    Per comprendere meglio cosa possiamo fare per te dobbiamo capire qual è il problema della tua organizzazione.
  1. Comprenderemo quanto ti manca

    Per capire se hai tutte le informazioni necessarie per raggiungere l’obiettivo dobbiamo sapere quanto la tua azienda è digitalizzata, quante informazioni possiedi, e a che punto ti trovi nel processo di classificazione dei dati.
  1. Studieremo le basi del progetto

    Stabiliremo insieme le basi del progetto. Non devi preoccuparti di avere già tutto chiaro o pensare di avere già tutte le informazioni necessarie, saremo noi a porti le domande giuste per mettere a fuoco i passi successivi!

Prima si condividono gli obiettivi e i dati, prima si ottengono risultati mai visti!

Non aspettare ancora