Vai al contenuto
Skuto

Glossario

Dati sintetici

I dati sintetici sono dati generati artificialmente che imitano gli schemi dei dati reali senza contenere informazioni di persone vere. Si usano per addestrare e testare sistemi AI quando i dati reali sono scarsi, sensibili o difficili da usare legalmente.

A volte servono dati che si comportano come quelli veri senza essere quelli veri. I dati sintetici vengono generati, spesso da un modello AI, per copiare la forma statistica di un dataset reale: le cartelle di un intero ospedale immaginario, con età e diagnosi realistiche, ma nessun paziente in carne e ossa. Siccome dentro non c’è nessuna persona reale, aggirano molti dei vincoli che accompagnano i dati personali: per questo piacciono a sanità, banche e sviluppo software. Contano anche perché gli LLM hanno ormai letto gran parte del web pubblico, e i dati sintetici sono uno dei modi per continuare a nutrirli.

Esiste anche la versione quotidiana del trucco. La titolare di un bar vuole aiuto per impostare il foglio di calcolo delle tessere fedeltà, ma non vuole incollare clienti veri in un chatbot. Chiede all’AI di inventare venti clienti plausibili e costruisce le formule su quelli. Stesso aiuto, esposizione zero: un cugino più simpatico dell’anonimizzazione.

Da sapere: i dati sintetici ereditano i difetti dei dati reali che imitano, e set generati male possono comunque lasciar trapelare tracce degli originali. Per decidere quali dati veri puoi incollare e dove, la via più rapida è il controllo privacy.

Dove lo incontrerai

  • La documentazione dei modelli, dove i fornitori descrivono le fonti di addestramento
  • Gli strumenti per sviluppatori che offrono dati di prova sintetici per app e database
  • I dibattiti su come addestrare i modelli ora che il testo del web “sta finendo”

Mettilo in pratica

← Torna al glossario