Zum Inhalt springen
Skuto

Glossar

Synthetische Daten

Synthetische Daten sind künstlich erzeugte Daten, die die Muster echter Daten nachahmen, ohne Informationen realer Personen zu enthalten. Sie werden genutzt, um KI-Systeme zu trainieren und zu testen, wenn echte Daten knapp, sensibel oder rechtlich schwer nutzbar sind.

Manchmal braucht man Daten, die sich wie echte Daten verhalten, ohne wirklich echt zu sein. Synthetische Daten werden (oft von einem KI-Modell) generiert, um die statistische Struktur eines realen Datensatzes nachzubilden: etwa die Akten eines fiktiven Krankenhauses mit realistischen Altersangaben und Diagnosen, aber ohne einen einzigen echten Patienten. Da keine reale Person darin vorkommt, umgehen sie viele der Einschränkungen, die mit personenbezogenen Daten im Sinne der DSGVO verbunden sind, und deshalb sind sie in Gesundheitswesen, Banken und Softwareentwicklung beliebt. Sie gewinnen auch an Bedeutung, weil große Sprachmodelle (LLMs) den größten Teil des öffentlichen Internets längst verarbeitet haben: Synthetische Daten sind ein Weg, sie weiter zu trainieren.

Es gibt auch eine alltägliche Variante des Tricks. Ein Restaurantbetreiber möchte Hilfe beim Aufbau einer Kundenkartei-Tabelle, möchte aber keine echten Kundendaten in einen Chatbot einfügen. Er bittet die KI, zwanzig plausible Mustereinträge zu erfinden, und baut seine Formeln darauf auf. Gleiche Hilfe, null Datenpanne: ein entspannterer Verwandter der Anonymisierung.

Wichtig zu wissen: Synthetische Daten erben die Verzerrungen der echten Daten, die sie imitieren. Schlecht generierte Datensätze können trotzdem Spuren der Originale durchschimmern lassen. Der BfDI und die Landesdatenschutzbehörden (z. B. LfDI Baden-Württemberg, Bayerisches Landesamt für Datenschutzaufsicht) betonen, dass auch synthetische Daten einer Risikoprüfung bedürfen, wenn sie aus personenbezogenen Quellen abgeleitet wurden. Für die Frage, welche echten Daten du überhaupt einfügen kannst, ist der Datenschutz-Check der schnellere Weg.

Wo dir das begegnet

  • In der Modelldokumentation von KI-Anbietern, die ihre Trainingsquellen beschreiben
  • In Entwicklerwerkzeugen, die synthetische Testdaten für Apps und Datenbanken bereitstellen
  • In Forschung und Politik rund um die Frage, wie Modelle trainiert werden, wenn der Fundus an Web-Texten erschöpft ist

Direkt ausprobieren

← Zurück zum Glossar