Aller au contenu
Skuto

Glossaire

Données d'entraînement

Les données d'entraînement sont l'immense collection de textes, d'images et de code sur laquelle un modèle d'IA apprend. Avec certains chatbots, ce que vous tapez peut devenir une donnée d'entraînement, sauf si vous le désactivez dans les paramètres de confidentialité.

Un modèle d’IA ne sait rien par lui-même. Il a appris à écrire et à répondre en assimilant des quantités colossales de texte : des livres, des sites web, du code. C’est cet ensemble qu’on appelle les données d’entraînement. Ce qui vous concerne directement : certains fournisseurs utilisent aussi vos conversations pour entraîner leurs futurs modèles, selon votre abonnement et vos réglages.

Imaginez un gérant de restaurant qui colle l’e-mail d’un fournisseur dans un chatbot pour lui faire rédiger une réponse. Si l’option « améliorer le modèle » est activée, cet e-mail (noms, tarifs et tout le reste) peut être intégré aux données d’entraînement. Il ne ressortira pas mot pour mot chez quelqu’un d’autre, mais il a quitté votre périmètre.

La solution tient en général à un seul réglage, et il vaut la peine de le vérifier avant de coller quoi que ce soit de sensible. Notre vérificateur de confidentialité vous montre comment chaque chatbot traite ce que vous saisissez, offre par offre.

Où vous rencontrerez ce terme

  • ChatGPT → Paramètres → Contrôles des données → « Améliorer le modèle pour tout le monde »
  • Claude → Paramètres → Confidentialité, où se trouvent les préférences d’entraînement
  • Gemini → la page Activité des applications Gemini de votre compte Google
  • Le Chat (Mistral) → Paramètres → Confidentialité ; solution française soumise au RGPD et supervisée par la CNIL

En France, le RGPD (Règlement général sur la protection des données) encadre l’utilisation de vos données personnelles à des fins d’entraînement. Un fournisseur doit en principe disposer d’une base légale valide (comme votre consentement explicite) pour utiliser vos conversations à cette fin. L’AI Act européen renforce ces obligations pour les modèles à haut risque.

Voir aussi opt-out et LLM.

Mettez-le en pratique

← Retour au glossaire