Glossar

Multimodal

Ein multimodales KI-Modell versteht und erzeugt mehr als nur Text: Es sieht Fotos, liest Dokumente, hört zu, spricht und erstellt oft Bilder. Alle großen Assistenten wie ChatGPT, Claude und Gemini sind heute multimodal.

„Modal“ ist der akademische Begriff für „Eingabeart“: Text, Bild, Audio, Video. Ein multimodales Modell beherrscht mehrere davon, und das hat verändert, wie KI im Alltag tatsächlich genutzt wird. Die Tastatur ist nicht mehr die einzige Tür.

Konkret: Du fotografierst die Fehleranzeige deiner Heizung und fragst „Was bedeutet E04, kann ich das selbst beheben?“ Du fotografierst das handgeschriebene Rezept deiner Oma und lässt es abtippen und für zwei Personen halbieren. Du hältst dein Handy an ein Formular auf Niederländisch im Urlaub. Du lädst ein 30-seitiges PDF hoch und fragst, wo die Kündigungsklausel steht. All das erledigt Multimodalität, und sie erspart dir Abtippen, das du ohnehin nie gemacht hättest.

Ein Hinweis, der Enttäuschungen vermeidet: Bilderkennung ist gut, aber nicht perfekt. Modelle machen mehr Fehler bei Kleinstdruck, Handschrift und komplexen Tabellen als bei sauberem Text. Bei Zahlen, auf die es ankommt, check immer noch mal die Quelle.

Wo du das begegnest

Das Büroklammer- oder Foto-Symbol in ChatGPT, Claude und Gemini; die Kamerafunktion in den jeweiligen Apps; auch Sprachmodus und Bildgenerierung sind Multimodalität. Was welche App kann, unterscheidet sich. Unser KI-Auswahl-Tool hilft dir, das passende Modell für dein Vorhaben zu finden.

Direkt ausprobieren

Kostenlos KI für Einsteiger Ganz neu bei KI und unsicher, wo du anfangen sollst? Beantworte ein paar einfache Fragen und wir zeigen dir den einen Assistenten, der zu dem passt, was du vorhast: ehrlich, mit Quellen, ohne Hype. Fang hier an.

← Zurück zum Glossar

Wo du das begegnest

Verwandte Begriffe

Direkt ausprobieren