Skip to main content

Tokenisierung

Tokenisierung ist der Vorgang, Text in kleine Einheiten (Token) zu zerlegen, die ein KI-Modell verarbeiten kann. Sie ist der erste Schritt, bevor ein Sprachmodell einen Prompt versteht.

Bei der Tokenisierung wird Text nach einem festen Vokabular in haeufige Wortbausteine aufgeteilt, sodass auch unbekannte Woerter abgebildet werden koennen. Verschiedene Modelle nutzen unterschiedliche Tokenizer, weshalb derselbe Text unterschiedlich viele Token ergeben kann. Die Tokenisierung beeinflusst direkt Kosten, Geschwindigkeit und die Auslastung des Kontextfensters. Ein Verstaendnis der Tokenisierung hilft, Prompts effizienter und guenstiger zu gestalten.

Verwandte Begriffe

Vom Begriff zur Praxis

Speichere, versioniere und teile deine besten Prompts mit Prompt2Love.

Kostenlos starten