Bei der Inferenz wendet das Modell sein bereits gelerntes Wissen an, ohne seine internen Parameter zu veraendern. Sie ist der Schritt, der jedes Mal ablaeuft, wenn du mit ChatGPT oder Claude interagierst. Die Geschwindigkeit der Inferenz (Latenz) und die dabei verbrauchten Token bestimmen Kosten und Nutzererlebnis. Optimierungen wie Quantisierung und Caching machen die Inferenz schneller und guenstiger.
Inferenz
Inferenz ist der Vorgang, bei dem ein trainiertes KI-Modell aus einer Eingabe eine Ausgabe erzeugt, also etwa eine Antwort auf einen Prompt generiert. Sie unterscheidet sich vom Training, in dem das Modell erst lernt.
Verwandte Begriffe
Vom Begriff zur Praxis
Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.
Kostenlos starten