Glosario

Multimodal

Una IA multimodal entiende y produce más que texto: puede ver fotos, leer documentos, escuchar, hablar y a menudo generar imágenes. Los grandes asistentes (ChatGPT, Claude, Gemini) son multimodales hoy en día.

“Modal” es solo la palabra académica para “tipo de entrada”: texto, imágenes, audio, vídeo. Un modelo multimodal maneja varios a la vez, y eso ha cambiado por completo cómo usamos la IA en el día a día: el teclado ya no es la única puerta de entrada.

En la práctica: haz una foto al display de la caldera con el código de error y pregunta “¿qué significa E04 y puedo arreglarlo yo?”. Fotografía la receta manuscrita de tu abuela y pídele que te la transcriba y ajuste las cantidades para dos personas. Apunta la cámara a un formulario en otro idioma. Sube un PDF de 30 páginas y pregunta dónde está la cláusula de cancelación. En cada uno de esos casos, la multimodalidad hace el trabajo de teclear que nunca habrías hecho.

Una advertencia que evita frustraciones: la visión es buena, no perfecta. Los modelos se equivocan más con letra pequeña, escritura a mano y tablas complejas que con texto limpio. Si los números importan, compruébalo siempre en el original.

Dónde la encontrarás

El icono de clip/foto en ChatGPT, Claude y Gemini; la cámara en sus aplicaciones móviles; el modo de voz y la generación de imágenes también son multimodalidad. Las capacidades varían según la app, así que nuestro selector de IA las compara con lo que tú necesitas de verdad.

Ponlo en práctica

Gratis IA para Principiantes ¿Acabas de empezar con la IA y no sabes por dónde tirar? Responde unas preguntas sencillas y te indicamos el asistente que mejor encaja con lo que quieres hacer: con sinceridad, con fuentes y sin postureo. Empieza por aquí.

← Volver al glosario

Dónde la encontrarás

Términos relacionados

Ponlo en práctica