Skip to main content

Inferenz

Inferenz ist der Vorgang, bei dem ein trainiertes KI-Modell aus einer Eingabe eine Ausgabe erzeugt, also etwa eine Antwort auf einen Prompt generiert. Sie unterscheidet sich vom Training, in dem das Modell erst lernt.

Bei der Inferenz wendet das Modell sein bereits gelerntes Wissen an, ohne seine internen Parameter zu veraendern. Sie ist der Schritt, der jedes Mal ablaeuft, wenn du mit ChatGPT oder Claude interagierst. Die Geschwindigkeit der Inferenz (Latenz) und die dabei verbrauchten Token bestimmen Kosten und Nutzererlebnis. Optimierungen wie Quantisierung und Caching machen die Inferenz schneller und guenstiger.

Verwandte Begriffe

Vom Begriff zur Praxis

Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.

Kostenlos starten