Glosario
Datos sintéticos
Los datos sintéticos son datos generados artificialmente que imitan los patrones de datos reales sin contener información de personas reales. Se usan para entrenar y probar sistemas de IA cuando los datos reales escasean, son sensibles o difíciles de usar legalmente.
A veces necesitas datos que se comporten como los reales sin serlo. Los datos sintéticos se generan, normalmente mediante un modelo de IA, para copiar la forma estadística de un conjunto de datos real: el historial de un hospital imaginario lleno de pacientes con edades y diagnósticos verosímiles, pero sin ninguna persona real detrás. Al no contener información personal, esquivan muchas de las restricciones legales que acompañan a los datos personales, que en España supervisa la AEPD (Agencia Española de Protección de Datos) y en Europa regula el RGPD. Por eso son tan populares en sanidad, banca y desarrollo de software. Y tienen otro motivo de peso: los LLM ya han leído gran parte del internet público, y los datos sintéticos son una de las vías para seguir alimentándolos.
También existe la versión cotidiana del truco. Imagina que tienes un pequeño negocio y quieres que la IA te ayude a diseñar una hoja de cálculo para tu programa de fidelización, pero no quieres pegar los datos reales de tus clientes en un chatbot. Le pides a la IA que invente veinte clientes plausibles y montas las fórmulas sobre esos. El mismo resultado, sin exponer nada: un primo más amable de la anonimización.
Hay algo que conviene tener claro: los datos sintéticos heredan los sesgos de los datos reales que imitan, y los conjuntos mal generados pueden filtrar rastros de los originales. El AI Act europeo también establece obligaciones de transparencia sobre los datos de entrenamiento para sistemas de IA de alto riesgo, lo que hace que la calidad de estos datos sea cada vez más relevante a nivel legal. Si quieres saber qué datos reales puedes pegar y dónde, el comprobador de pegado es el camino más rápido.
Dónde vas a encontrarte esto
- En la documentación técnica de los proveedores de IA, cuando describen las fuentes de entrenamiento de sus modelos
- En herramientas para desarrolladores que ofrecen datos de prueba sintéticos para aplicaciones y bases de datos
- En debates de investigación y política sobre cómo seguir entrenando modelos ahora que el texto disponible en la web “se está agotando”