Ir al contenido
Skuto

Glosario

Multimodal

Una IA multimodal entiende y produce más que texto: puede ver fotos, leer documentos, escuchar, hablar y a menudo generar imágenes. Los grandes asistentes (ChatGPT, Claude, Gemini) son multimodales hoy en día.

“Modal” es solo la palabra académica para “tipo de entrada”: texto, imágenes, audio, vídeo. Un modelo multimodal maneja varios a la vez, y eso ha cambiado por completo cómo usamos la IA en el día a día: el teclado ya no es la única puerta de entrada.

En la práctica: haz una foto al display de la caldera con el código de error y pregunta “¿qué significa E04 y puedo arreglarlo yo?”. Fotografía la receta manuscrita de tu abuela y pídele que te la transcriba y ajuste las cantidades para dos personas. Apunta la cámara a un formulario en otro idioma. Sube un PDF de 30 páginas y pregunta dónde está la cláusula de cancelación. En cada uno de esos casos, la multimodalidad hace el trabajo de teclear que nunca habrías hecho.

Una advertencia que evita frustraciones: la visión es buena, no perfecta. Los modelos se equivocan más con letra pequeña, escritura a mano y tablas complejas que con texto limpio. Si los números importan, compruébalo siempre en el original.

Dónde la encontrarás

El icono de clip/foto en ChatGPT, Claude y Gemini; la cámara en sus aplicaciones móviles; el modo de voz y la generación de imágenes también son multimodalidad. Las capacidades varían según la app, así que nuestro selector de IA las compara con lo que tú necesitas de verdad.

Ponlo en práctica

← Volver al glosario