Multimodal

Multimodal beschreibt KI-Modelle, die mehrere Datentypen wie Text, Bild, Audio und Video gleichzeitig verstehen und verarbeiten koennen. Sie ermoeglichen etwa, ein Bild hochzuladen und Fragen dazu zu stellen.

Multimodale Modelle verarbeiten verschiedene Eingabeformen in einem gemeinsamen Verstaendnis, statt nur reinen Text. Dadurch koennen sie Bilder beschreiben, Diagramme interpretieren, Sprache transkribieren oder aus Text Bilder erzeugen. Bekannte Beispiele sind GPT-4o, Claude und Gemini, die Text und Bilder kombiniert verstehen. Multimodalitaet eroeffnet Anwendungen von der Dokumentenanalyse bis zur barrierefreien Bildbeschreibung.

Vom Begriff zur Praxis

Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.

Kostenlos starten

Wir verwenden Cookies, um dein Erlebnis zu verbessern. Analytics-Cookies helfen uns, Prompt2Love weiterzuentwickeln. Einstellungen

Verwandte Begriffe

Vom Begriff zur Praxis