Skip to main content

Multimodal

Multimodal beschreibt KI-Modelle, die mehrere Datentypen wie Text, Bild, Audio und Video gleichzeitig verstehen und verarbeiten koennen. Sie ermoeglichen etwa, ein Bild hochzuladen und Fragen dazu zu stellen.

Multimodale Modelle verarbeiten verschiedene Eingabeformen in einem gemeinsamen Verstaendnis, statt nur reinen Text. Dadurch koennen sie Bilder beschreiben, Diagramme interpretieren, Sprache transkribieren oder aus Text Bilder erzeugen. Bekannte Beispiele sind GPT-4o, Claude und Gemini, die Text und Bilder kombiniert verstehen. Multimodalitaet eroeffnet Anwendungen von der Dokumentenanalyse bis zur barrierefreien Bildbeschreibung.

Verwandte Begriffe

Vom Begriff zur Praxis

Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.

Kostenlos starten