Multimodale Modelle verarbeiten verschiedene Eingabeformen in einem gemeinsamen Verstaendnis, statt nur reinen Text. Dadurch koennen sie Bilder beschreiben, Diagramme interpretieren, Sprache transkribieren oder aus Text Bilder erzeugen. Bekannte Beispiele sind GPT-4o, Claude und Gemini, die Text und Bilder kombiniert verstehen. Multimodalitaet eroeffnet Anwendungen von der Dokumentenanalyse bis zur barrierefreien Bildbeschreibung.
Multimodal
Multimodal beschreibt KI-Modelle, die mehrere Datentypen wie Text, Bild, Audio und Video gleichzeitig verstehen und verarbeiten koennen. Sie ermoeglichen etwa, ein Bild hochzuladen und Fragen dazu zu stellen.
Verwandte Begriffe
Vom Begriff zur Praxis
Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.
Kostenlos starten