L’intelligenza Artificiale Generativa ha un’insaziabile fame di dati. Con la crescita e il perfezionamento dei modelli, l’esigenza di enormi quantità di dati di addestramento cresce esponenzialmente. Tuttavia, le organizzazioni di tutto il mondo si trovano ad affrontare la stessa sfida persistente: la mancanza di dataset sufficientemente ampi, diversificati e di alta qualità per alimentare in modo efficace i sistemi di AI. In questo contesto si inseriscono i dati sintetici: informazioni generate artificialmente che riproducono i modelli del mondo reale senza compromettere la privacy individuale e senza richiedere costosi processi di raccolta dati.
Eppure, sebbene i dati sintetici emergano come potenziale soluzione alla carenza di dati per l’AI, sorgono alcuni interrogativi: stiamo davvero risolvendo un problema o ne stiamo creando di nuovi? I dati generati artificialmente possono realmente mantenere la promessa dei Dati per tutti, oppure rischiamo di avviarci verso quella che il tecnologo canadese Cory Doctorow definisce una “crisi dell’AI coprofagica”, con sistemi che si nutrono dei propri scarti digitali?
Il dilemma dei dati: scarsità in un’epoca di abbondanza
Il panorama attuale dell’AI presenta un paradosso evidente. Nonostante oggi vengano generati più dati che mai, l’accesso a dataset di qualità e realmente rappresentativi per l’addestramento dei modelli rimane complesso. Vincoli normativi legati alla privacy, elevati costi di raccolta e la scarsità di casi limite nei dati reali creano colli di bottiglia che rallentano lo sviluppo dell’AI.
«I dati sintetici hanno trovato un ruolo centrale nell’AI perché per addestrare gli algoritmi servono enormi quantità di dati», spiega Susannah Matschke, Head of Data & AI per Sopra Steria Next nel Regno Unito. «Quando i dati non sono sufficienti o la loro qualità non è adeguata alla costruzione dei modelli desiderati, è lì che entrano in gioco i dati sintetici».
Questa scarsità è particolarmente evidente nei settori regolamentati come la sanità e la finanza, dove la sensibilità dei dati rende la condivisione e l’accesso estremamente complessi. Si pensi, ad esempio, ad un’azienda farmaceutica impegnata nello sviluppo di una nuova terapia innovativa: gli algoritmi sono pronti a individuare molecole promettenti, ma l’accesso ai dati reali dei pazienti è limitato dalle normative sulla privacy e ciò che è disponibile rappresenta soltanto una porzione demografica ristretta. Il tempo stringe, le vite sono in gioco e la raccolta tradizionale dei dati potrebbe richiedere anni. In questo contesto, i dati sintetici offrono una soluzione concreta per accelerare lo sviluppo dell’AI in settori critici, garantendo al contempo privacy e rispetto delle normative vigenti.
La promessa dei Dati per tutti
I dati sintetici rappresentano molto più di una semplice soluzione tecnica: incarnano una visione democratica dello sviluppo dell’AI. Generando dataset artificiali che preservano le proprietà statistiche eliminando al contempo gli identificatori personali, le organizzazioni possono condividere dati preziosi per l’addestramento dei modelli senza rischi legati alla privacy.
«I dati sintetici sono straordinari perché eliminano il rischio di utilizzare i dati personali di qualcuno», osserva Matschke. «Questa è una vera svolta nello sviluppo dell’AI, poiché spesso il principale ostacolo è l’accesso ai dati di qualità e diversificati, soprattutto nei settori in cui le normative sulla privacy o i costi rendono difficile reperirli».
La tecnologia eccelle nella modellazione di scenari insoliti, difficili da riscontrare nei dati reali. Nel caso dei veicoli autonomi, ad esempio, i dati sintetici possono generare migliaia di casi limite (dalle condizioni metereologiche estreme a comportamenti pedonali atipici) che sarebbe impossibile o pericoloso raccogliere nella realtà.
Dal punto di vista della sostenibilità, i dati sintetici offrono vantaggi significativi. «Raccogliere, archiviare ed elaborare dati reali può essere estremamente dispendioso in termini energetici», spiega Matschke. «Con i dati sintetici puoi generare esattamente ciò di cui hai bisogno, quando ne hai bisogno, riducendo i costi di calcolo e di archiviazione, con un impatto ambientale generalmente inferiore».
Innovazione tecnologica e controllo di qualità
Il processo tecnico di generazione dei dati sintetici richiede una calibrazione accurata per garantire realismo e utilità.
«È necessario disporre di dati reali per capire come i dati dovrebbero apparire, quali siano gli intervalli di valori», spiega Matschke. «Per un esempio semplice come l’età delle persone, i valori devono partire da zero e arrivare a 100-110 anni, non generare età di 200 o 500 anni».
Comprendere questi limiti e le distribuzioni diventa fondamentale per le applicazioni pratiche. «Se guardiamo all’età dei richiedenti di carte di credito, in genere si colloca tra i 18 e i 50 anni — non vogliamo generare bambini di cinque anni che fanno domanda per una carta di credito», aggiunge.
Questo approccio human-in-the-loop consente alle organizzazioni di mantenere il controllo sul processo di generazione, influenzando i risultati e stabilendo limiti per evitare distorsioni. Il risultato è un insieme di dati che conserva l’integrità statistica pur rispondendo a specifiche esigenze di training.
Cosa succede quando l’AI si nutre di AI?
Nonostante i suoi vantaggi, i dati sintetici presentano sfide significative che richiamano le preoccupazioni sollevate da Doctorow. Nel suo saggio “The Coprophagic AI Crisis”, Doctorow avverte del rischio di un futuro in cui i modelli di intelligenza artificiale vengono addestrati sempre più su dati generati da altri sistemi AI, dando luogo a quello che i ricercatori definiscono “model collapse”.
«Esiste una preoccupazione legittima riguardo al model collapse» riconosce Matschke. «Quando si utilizza un modello per generare dati destinati ad addestrarne un altro, si crea uno scenario circolare in cui gli errori, i limiti e i bias di una AI si ripetono e si amplificano. Col tempo, si rischia di perdere la sfumatura, la precisione e la diversità che rendono i dati unici e preziosi».
L’analisi di Doctorow mette in luce i pericoli matematici di questo addestramento ricorsivo. Come evidenzia, la ricerca dimostra che «addestrare una AI sui risultati di un’altra AI la rende esponenzialmente peggiore». La proliferazione di contenuti generati dall’AI su Internet minaccia infatti di contaminare i dataset futuri con informazioni sempre più degradate.
Questo rischio di contaminazione va oltre la semplice generazione di dati sintetici: rappresenta la sfida più ampia di mantenere la qualità dei dati in un ambiente informativo saturo di AI. Come osserva Doctorow, «la quantità di contenuti generati dall’uomo in qualsiasi campione di Internet sta ormai scendendo a livelli omeopatici».
Governance e best practices
Affrontare queste sfide richiede solidi framework di governance che bilancino innovazione e controllo di qualità.
«La governance è essenziale nell’AI» sottolinea Matschke. «Le organizzazioni devono disporre di una documentazione chiara sull’utilizzo e la generazione dei dati sintetici, con audit regolari per rilevare bias. È necessario un forte controllo interno, che si tratti di comitati etici o di comitati di revisione indipendenti».
La soluzione non sta nell’evitare i dati sintetici, ma nell’implementarli in modo ragionato. «La soluzione è utilizzare i dati sintetici come complemento ai dati reali, non come loro sostituti, e riaddestrare regolarmente i modelli con dati del mondo reale» spiega Matschke.
Questo approccio ibrido riconosce i limiti dei dati sintetici, valorizzandone al tempo stesso i punti di forza. In contesti critici come la sanità o i trasporti, i dati sintetici dovrebbero supportare, e non sostituire, i dataset reali. «Per strumenti diagnostici medici o veicoli autonomi, anche una piccola deviazione dallo scenario reale potrebbe avere un impatto enorme. In questi casi, i dati sintetici dovrebbero essere usati come supporto, non come sostituti dei dati reali» aggiunge.
Un percorso sostenibile
Guardando al futuro, il ruolo dei dati sintetici nello sviluppo dell’AI appare al tempo stesso promettente e complesso. Più che rappresentare una soluzione definitiva alle sfide legate ai dati, i dati sintetici si configurano come uno strumento potente all’interno di un ecosistema più ampio di sviluppo responsabile dell’AI.
«Non credo che sostituiranno i dati reali» conclude Matschke. «Penso piuttosto che diventeranno una
parte centrale del processo di sviluppo dell’AI, forse nelle fasi iniziali. Ci stiamo muovendo verso un modello ibrido, in cui i dati sintetici colmano le lacune dei dati reali o vengono utilizzati in scenari più rari, rischiosi o vincolati da requisiti di privacy».
La chiave sta nel mantenere quella che Matschke definisce “
due diligence” nell’integrazione dei dati:
garantire che i dataset siano rappresentativi, privi di bias ed etici. Ciò richiede una collaborazione continua tra tecnologi, esperti di etica e specialisti di dominio per stabilire standard che prevengano gli scenari “coprofagici” contro cui mette in guardia Doctorow.
____________________________________________________