Aller au contenu
Skuto

Glossaire

Données synthétiques

Données générées artificiellement pour imiter les schémas de données réelles sans contenir d'informations sur de vraies personnes. On les utilise pour entraîner et tester des systèmes d'IA quand les données réelles sont rares, sensibles ou soumises à des contraintes légales.

Parfois, on a besoin de données qui se comportent comme les vraies sans être les vraies. Les données synthétiques sont générées, souvent par un modèle d’IA, pour reproduire la forme statistique d’un jeu de données réel : les dossiers d’un hôpital imaginaire complet, avec des âges et des diagnostics plausibles, mais aucun vrai patient. Comme aucune personne réelle n’y figure, elles contournent bon nombre des contraintes liées aux données personnelles, ce qui explique leur succès dans la santé, la banque et le développement logiciel. Elles ont aussi de l’importance parce que les grands modèles de langage ont déjà lu une grande partie du web public : les données synthétiques sont l’un des moyens de continuer à les alimenter.

Il existe aussi une version bien concrète de cette astuce. Un restaurateur souhaite de l’aide pour construire un tableur de carte de fidélité, mais ne veut pas coller de vrais clients dans un chatbot. Il demande à l’IA d’inventer vingt clients plausibles et construit ses formules à partir de ceux-là. Même résultat, zéro exposition : une version plus accessible de l’anonymisation.

À savoir : les données synthétiques héritent des biais des données réelles qu’elles imitent. Des jeux mal générés peuvent encore laisser filtrer des traces des originaux. La CNIL rappelle d’ailleurs que des données synthétiques ne sont pas automatiquement hors du champ du RGPD si elles permettent, combinées à d’autres informations, de réidentifier une personne. Avant de décider quelles données réelles vous pouvez coller et où, le vérificateur de confidentialité est la voie la plus directe.

Où vous rencontrerez ce terme

  • La documentation des fournisseurs de modèles, qui décrivent leurs sources d’entraînement
  • Les outils pour développeurs proposant des données de test synthétiques pour applications et bases de données
  • Les débats sur la manière d’entraîner les modèles maintenant que le texte disponible sur le web « s’épuise »
  • Les lignes directrices de la CNIL et les discussions autour de l’IA Act européen sur l’utilisation de données d’entraînement conformes au RGPD

Mettez-le en pratique

← Retour au glossaire