Zum Inhalt springen
Skuto

Glossar

Multimodal

Ein multimodales KI-Modell versteht und erzeugt mehr als nur Text: Es sieht Fotos, liest Dokumente, hört zu, spricht und erstellt oft Bilder. Alle großen Assistenten wie ChatGPT, Claude und Gemini sind heute multimodal.

„Modal“ ist der akademische Begriff für „Eingabeart“: Text, Bild, Audio, Video. Ein multimodales Modell beherrscht mehrere davon, und das hat verändert, wie KI im Alltag tatsächlich genutzt wird. Die Tastatur ist nicht mehr die einzige Tür.

Konkret: Du fotografierst die Fehleranzeige deiner Heizung und fragst „Was bedeutet E04, kann ich das selbst beheben?“ Du fotografierst das handgeschriebene Rezept deiner Oma und lässt es abtippen und für zwei Personen halbieren. Du hältst dein Handy an ein Formular auf Niederländisch im Urlaub. Du lädst ein 30-seitiges PDF hoch und fragst, wo die Kündigungsklausel steht. All das erledigt Multimodalität, und sie erspart dir Abtippen, das du ohnehin nie gemacht hättest.

Ein Hinweis, der Enttäuschungen vermeidet: Bilderkennung ist gut, aber nicht perfekt. Modelle machen mehr Fehler bei Kleinstdruck, Handschrift und komplexen Tabellen als bei sauberem Text. Bei Zahlen, auf die es ankommt, check immer noch mal die Quelle.

Wo du das begegnest

Das Büroklammer- oder Foto-Symbol in ChatGPT, Claude und Gemini; die Kamerafunktion in den jeweiligen Apps; auch Sprachmodus und Bildgenerierung sind Multimodalität. Was welche App kann, unterscheidet sich. Unser KI-Auswahl-Tool hilft dir, das passende Modell für dein Vorhaben zu finden.

Direkt ausprobieren

← Zurück zum Glossar