Chain-of-Thought-Prompting ist eine Technik, bei der du ein KI-Sprachmodell ausdrücklich aufforderst, ein Problem Schritt für Schritt durchzudenken, bevor es eine Antwort gibt. Statt sofort das Ergebnis zu verlangen, lässt du das Modell seinen Lösungsweg ausschreiben — die einzelnen Überlegungen, Zwischenschritte und Schlussfolgerungen. Bei Logik-, Rechen- und mehrstufigen Aufgaben steigert das die Trefferquote drastisch, weil das Modell seine eigene Argumentation aufbauen und prüfen kann, statt blind zu raten.
Die Idee klingt simpel, hat die Praxis des Prompt Engineerings aber grundlegend verändert. Der Auslöser war die Arbeit "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" von Jason Wei und Kollegen bei Google Research (2022). Sie zeigte, dass dieselben Modelle, die an einer Aufgabe scheitern, sie plötzlich lösen, sobald man sie zum schrittweisen Denken auffordert. Dieser Leitfaden erklärt, was Chain-of-Thought genau ist, warum es funktioniert, wie du es selbst einsetzt — und wann du besser darauf verzichtest.
Was ist Chain-of-Thought-Prompting?
Chain-of-Thought-Prompting (CoT) ist eine Prompting-Technik, die ein Modell dazu bringt, seinen Denkprozess explizit auszuformulieren, bevor es eine endgültige Antwort liefert. Der Kern ist eine einzige Anweisung: "Denke Schritt für Schritt." Aus dieser Aufforderung entsteht eine Kette von Zwischengedanken — daher der Name —, die das Modell zur Lösung führt, statt dass es direkt ein Ergebnis ausspuckt.
Man unterscheidet zwei Varianten. Beim Zero-Shot-CoT genügt der Satz "Lass uns Schritt für Schritt denken", ohne weitere Beispiele. Beim Few-Shot-CoT zeigst du dem Modell ein bis drei vollständig durchgerechnete Beispiele mit ausgeschriebenem Lösungsweg, an denen es sich orientiert. Laut der ursprünglichen Google-Studie (Wei et al., 2022) hob Few-Shot-CoT die Genauigkeit eines großen Modells beim Mathematik-Benchmark GSM8K von 17,9 auf 58,1 Prozent — eine Verdreifachung allein durch die Art der Aufforderung, ohne das Modell selbst zu verändern.
Wo CoT herkommt
Vor 2022 galt: Größere Modelle werden besser, aber bei echtem Schlussfolgern stoßen sie an eine Wand. Die CoT-Arbeit zeigte, dass diese Fähigkeit latent vorhanden war und nur durch die richtige Aufforderung freigelegt werden musste. Kojima et al. ergänzten 2022 mit "Large Language Models are Zero-Shot Reasoners", dass schon der schlichte Zusatz "Let's think step by step" ohne jedes Beispiel große Sprünge bringt. Seitdem ist CoT fester Bestandteil jeder seriösen Prompt-Engineering-Praxis und bildet die Grundlage moderner Reasoning-Modelle.
Eine emergente Fähigkeit, kein Trick
Ein wichtiger Befund der Originalstudie: CoT wirkt erst ab einer gewissen Modellgröße. Bei kleinen Modellen brachte die Aufforderung zum schrittweisen Denken kaum Verbesserung, teils sogar Verschlechterung, weil sie die nötige Tiefe der Zwischenschritte nicht erzeugen konnten. Erst ab etwa 100 Milliarden Parametern schlug der Effekt durch — die Forscher sprachen von einer "emergenten Fähigkeit". Das erklärt, warum CoT bei den großen Modellen von 2026 so verlässlich greift: Sie haben die Kapazität, einen kohärenten Gedankengang über viele Schritte aufrechtzuerhalten. Für die Praxis heißt das: CoT ist kein Zauberwort, das man auf jedes System wirft, sondern eine Technik, die das vorhandene Können eines fähigen Modells gezielt aktiviert. Bei leistungsstarken Modellen ist der Gewinn am größten, bei sehr kleinen oder stark beschnittenen Modellen kann er ausbleiben.
CoT versus direkte Antwort
Der Kontrast zur direkten Antwort verdeutlicht den Mechanismus. Eine direkte Antwort zwingt das Modell, das Endergebnis in einem einzigen Vorhersageschritt zu treffen — es muss die gesamte Logik implizit, unsichtbar und ohne Korrekturmöglichkeit durchlaufen. CoT verteilt dieselbe Arbeit auf viele kleine, explizite Schritte. Jeder Schritt ist für sich einfacher und damit zuverlässiger, und jeder baut auf dem zuvor erzeugten Text auf. Genau deshalb ist CoT keine kosmetische Ergänzung, sondern verändert, wie das Modell zur Antwort kommt. Es ist der Unterschied zwischen "schreib sofort das Resultat hin" und "rechne es vor mir vor". Letzteres ist langsamer, aber bei allem, was mehr als eine Gedankenoperation erfordert, deutlich präziser.
Warum verbessert Chain-of-Thought die Antworten?
Chain-of-Thought verbessert Antworten, weil es dem Modell erlaubt, ein komplexes Problem in kleinere, einzeln lösbare Teilschritte zu zerlegen — und dabei jeden Zwischenstand sichtbar zu machen. Ein Sprachmodell sagt das jeweils wahrscheinlichste nächste Wort voraus. Verlangst du sofort die Antwort, muss es das Endergebnis in einem einzigen Sprung erzeugen. Lässt du es dagegen erst denken, baut jeder Zwischenschritt nützlichen Kontext auf, an dem sich der nächste Schritt orientieren kann.
Technisch betrachtet erzeugt CoT mehr "Rechenraum" im Output. Das Modell nutzt die zusätzlichen Token, um Annahmen zu ordnen, Zahlen zu tracken und Logik zu entfalten, statt alles implizit in einem Schritt zu erledigen. Eine Analyse von Anthropic zu sichtbaren Denkprozessen (2025) bestätigt, dass ausgeschriebenes Schlussfolgern besonders bei mehrstufigen Aufgaben die Fehlerrate senkt. Ein angenehmer Nebeneffekt: Du siehst den Lösungsweg und kannst ihn prüfen. Wenn das Modell falsch liegt, erkennst du sofort an welcher Stelle — ein riesiger Vorteil gegenüber einer nackten, unbegründeten Zahl, die einfach falsch sein könnte.
Konkret lässt sich der Effekt an Benchmark-Zahlen ablesen. Wei et al. dokumentierten beim GSM8K-Mathematiktest nicht nur den Sprung von 17,9 auf 58,1 Prozent, sondern auch ähnliche Gewinne bei symbolischen und alltagslogischen Aufgaben (Last-Letter-Concatenation, Coin-Flip). Kojima et al. (2022) ergänzten den Befund mit Zero-Shot-CoT: Allein der Zusatz "Let's think step by step" hob die Genauigkeit eines großen Modells auf demselben Benchmark von 17,7 auf 78,0 Prozent — ohne ein einziges Beispiel. Beide Studien teilen dieselbe Erklärung: Das Problem wird nicht leichter, aber das Modell bekommt den Raum, es überhaupt sauber zu durchdenken. Die Verbesserung ist also kein Zufall einzelner Prompts, sondern ein reproduzierbares Muster über viele Aufgabenklassen hinweg.
Der Unterschied zwischen "raten" und "rechnen"
Stell dir die Frage: "Ein Hemd kostet nach 20 Prozent Rabatt 48 Euro. Was war der Originalpreis?" Ohne CoT springt das Modell oft zu einer plausibel klingenden, aber falschen Zahl. Mit CoT schreibt es: "48 Euro entsprechen 80 Prozent des Originals. Ein Prozent sind 0,60 Euro. Das Original sind 100 Prozent, also 60 Euro." Derselbe Rechenweg, den ein Mensch auf Papier gehen würde — nur ausgeschrieben. Die Sichtbarkeit erzwingt Konsistenz.
Wo der Gewinn am größten ist
Nicht jede Aufgabe profitiert gleich stark. Den größten Sprung sieht man bei Problemen mit mehreren voneinander abhängigen Schritten, bei denen ein früher Fehler die ganze Lösung kippt. Dazu zählen mehrstufige Textaufgaben, logische Rätsel, Wenn-Dann-Verkettungen, das Sortieren nach mehreren Kriterien und das Abwägen von Bedingungen. Auch bei Aufgaben, die das Modell verleiten, vorschnell zu einer "offensichtlichen" Antwort zu springen, hilft CoT, weil das ausgeschriebene Denken die voreilige Intuition ausbremst. Die folgende Übersicht ordnet typische Aufgaben nach erwartetem Nutzen.
| Aufgabentyp | Nutzen durch CoT |
|---|---|
| Mehrstufige Rechenaufgaben | Sehr hoch |
| Logikrätsel, Wenn-Dann-Ketten | Sehr hoch |
| Planung, Priorisierung mit Bedingungen | Hoch |
| Code-Debugging, Fehleranalyse | Hoch |
| Einfache Faktenfrage | Gering bis keiner |
| Übersetzung, kurze Klassifizierung | Gering bis keiner |
Auch für Erklärungen wertvoll
Über die reine Genauigkeit hinaus hat CoT einen didaktischen Wert. Wenn du nicht nur das Ergebnis, sondern den Weg dorthin verstehen willst, liefert die ausgeschriebene Kette eine fertige Erklärung mit. Das ist nützlich beim Lernen, beim Nachvollziehen einer Empfehlung oder wenn du einem Modell-Output gegenüber Dritten vertrauen musst. Eine Antwort, die ihren Weg zeigt, lässt sich prüfen, hinterfragen und korrigieren — eine nackte Zahl nicht. Gerade in Bereichen mit Verantwortung, etwa bei finanziellen oder medizinischen Überlegungen, ist diese Nachvollziehbarkeit oft wichtiger als ein paar Prozentpunkte mehr Genauigkeit. Die Kette ist damit nicht nur Mittel zur besseren Antwort, sondern auch ein Beleg, an dem du die Qualität der Antwort selbst beurteilen kannst.
Wie schreibt man einen Chain-of-Thought-Prompt?
Einen Chain-of-Thought-Prompt schreibst du, indem du der eigentlichen Aufgabe eine klare Denk-Aufforderung voranstellst und das Format des Lösungswegs vorgibst. Der einfachste Einstieg ist Zero-Shot-CoT: Hänge den Satz "Denke Schritt für Schritt und erkläre deinen Lösungsweg, bevor du das Ergebnis nennst" an deine Frage. Das genügt für die meisten Alltagsfälle bereits.
Für anspruchsvollere Aufgaben strukturierst du den Prompt expliziter. Eine bewährte Vorlage lautet: "Löse die folgende Aufgabe. Liste zuerst die gegebenen Größen auf. Beschreibe dann die nötigen Schritte einzeln. Führe jede Rechnung aus. Gib erst ganz am Ende das Endergebnis in einer separaten Zeile aus, eingeleitet mit 'Antwort:'." Diese Trennung von Denkprozess und Endergebnis macht den Output sowohl für Menschen als auch für nachgelagerte Systeme leicht weiterverarbeitbar.
Die drei Stufen im Überblick
| Variante | Wann einsetzen | So formulierst du |
|---|---|---|
| Zero-Shot-CoT | Schneller Alltag, einfache Logik | "Denke Schritt für Schritt." |
| Few-Shot-CoT | Format-Treue, konsistente Methode | Ein bis drei durchgerechnete Beispiele voranstellen |
| Strukturiertes CoT | Produktive Pipelines, Prüfbarkeit | Schritte benennen, Ergebnis separat ausgeben |
Few-Shot-CoT lohnt sich, wenn du nicht nur korrekte, sondern auch gleichförmige Antworten brauchst. Du zeigst dem Modell zwei vollständige Beispiele mit Lösungsweg, und es übernimmt nicht nur die Logik, sondern auch die Darstellungsform. So entsteht über viele Anfragen hinweg ein konsistentes Muster — entscheidend, wenn die Ausgabe automatisch weiterverarbeitet wird.
Ein vollständiges Beispiel
"Du bist ein sorgfältiger Analyst. Aufgabe: Ein Team von 4 Personen schafft 60 Tickets pro Tag. Zwei Personen fallen aus, dafür kommt eine neue, die nur halb so schnell ist. Wie viele Tickets schafft das Team jetzt? Denke Schritt für Schritt, zeige jede Rechnung, und gib das Ergebnis am Ende mit 'Antwort:' aus." Solche Prompts kombinieren Rolle, Aufgabe und CoT-Aufforderung — die Bausteine aus den [Prompt-Engineering-Grundlagen](/de/magazin/prompt-engineering-fundamentals) greifen hier nahtlos ineinander.
Few-Shot-CoT konkret
Für Few-Shot-CoT lieferst du dem Modell vollständige Vorbilder. Ein Klassifizierungs-Beispiel mit Begründung sieht so aus: "Beispiel 1: Anfrage: 'Mein Server ist seit einer Stunde offline und die Kunden beschweren sich.' Überlegung: Produktionsausfall mit direkter Geschäftswirkung, betrifft mehrere Nutzer. Dringlichkeit: hoch. Beispiel 2: Anfrage: 'Könnt ihr irgendwann das Logo im Footer anpassen?' Überlegung: kosmetisch, kein Zeitdruck, ein Nutzer. Dringlichkeit: niedrig. Neue Anfrage: [...]. Überlegung:". Das Modell übernimmt nicht nur die Logik, sondern auch die Form der Begründung und das Vokabular der Stufen. Genau diese Gleichförmigkeit ist der Grund, warum Few-Shot-CoT in produktiven Systemen oft die erste Wahl ist: Es liefert nicht nur korrekte, sondern vorhersehbar formatierte Antworten, die sich automatisch weiterverarbeiten lassen.
CoT und Trennzeichen
Sobald der Prompt länger wird, helfen Trennzeichen, damit das Modell Anweisung, Beispiele und neue Aufgabe nicht verwechselt. Markiere die Beispiele klar als Beispiele, setze die eigentliche Aufgabe in einen eigenen, deutlich abgegrenzten Block und beende den Prompt mit der CoT-Aufforderung und dem Ergebnis-Format. Diese Sauberkeit verhindert, dass das Modell die durchgerechneten Beispiele für die zu lösende Aufgabe hält — ein typischer Fehler bei dicht gepackten Few-Shot-Prompts. Strukturierte Eingaben sind nicht nur für dich besser lesbar, sondern erhöhen messbar die Zuverlässigkeit der Kette über viele Anfragen hinweg.
Wer mehr verwandte Methoden sucht — etwa Self-Consistency, Prompt Chaining oder Tree-of-Thought —, findet sie kompakt in der Übersicht [15 Prompt-Engineering-Techniken](/de/magazin/15-prompt-engineering-techniques), die CoT in den größeren Werkzeugkasten einordnet.
Self-Consistency: CoT verstärken
Eine wirkungsvolle Erweiterung ist Self-Consistency. Statt das Modell einmal denken zu lassen, lässt du es dieselbe Aufgabe mehrfach mit etwas Variation lösen — jeder Durchlauf erzeugt eine eigene Gedankenkette — und nimmst dann das Ergebnis, das am häufigsten vorkommt. Die Idee dahinter: Bei einem schweren Problem führen verschiedene korrekte Denkwege zur selben Antwort, während Fehler in unterschiedliche Richtungen streuen. Die Mehrheit korrigiert also einzelne Ausrutscher. Wang et al. zeigten 2022, dass Self-Consistency die CoT-Genauigkeit auf Benchmarks wie GSM8K nochmals deutlich anhob. Der Preis sind mehrere Durchläufe und damit höhere Kosten, weshalb sich die Technik vor allem dort lohnt, wo Korrektheit kritisch ist und der zusätzliche Aufwand sich rechtfertigt.
Häufige Fehler beim CoT-Schreiben
Drei Stolpersteine begegnen Einsteigern immer wieder. Erstens: Das Endergebnis nicht vom Denkprozess trennen. Ohne klare Anweisung wie "Gib das Ergebnis am Ende separat aus" vermischt das Modell Begründung und Antwort, was die automatische Weiterverarbeitung erschwert. Zweitens: CoT mit einer engen Längenvorgabe kombinieren. "Denke Schritt für Schritt, antworte in einem Satz" ist ein Widerspruch — die Kürze erstickt die Kette. Drittens: CoT auf Aufgaben werfen, die gar kein Schlussfolgern brauchen, und sich dann über aufgeblähte Antworten wundern. Wer diese drei Fehler vermeidet, holt aus der Technik den vollen Nutzen, ohne neue Probleme zu schaffen.
Wann solltest du es nicht einsetzen?
Chain-of-Thought solltest du nicht einsetzen, wenn die Aufgabe einfach ist, kein Schlussfolgern erfordert oder eine knappe, sofortige Antwort gefragt ist. Für eine Faktenfrage wie "Was ist die Hauptstadt von Frankreich?" oder eine simple Klassifizierung produziert CoT nur unnötigen Text, kostet mehr Token, erhöht die Latenz und kann sogar ablenken. Bei diesen Aufgaben ist ein direkter Zero-Shot-Prompt schneller und genauso korrekt.
Es gibt drei weitere Vorbehalte. Erstens kostet CoT Geld und Zeit: längere Ausgaben bedeuten mehr Token und langsamere Antworten — in produktiven Systemen mit hohem Durchsatz ein realer Faktor. Zweitens ist der ausgeschriebene Denkprozess nicht garantiert die echte interne Logik des Modells; Anthropic wies 2025 in Untersuchungen zur "Treue" von Reasoning nach, dass die sichtbare Kette gelegentlich nachträglich zur Antwort passend gemacht wird. Drittens lösen moderne Reasoning-Modelle wie die o-Serie viele Schritte bereits intern — eine zusätzliche "Denke Schritt für Schritt"-Anweisung bringt dort wenig und kann das Format stören.
Reasoning-Modelle ändern die Rechnung
Eine Entwicklung verdient besondere Aufmerksamkeit. Seit 2024 gibt es eine eigene Klasse von Reasoning-Modellen, die intern bereits eine ausführliche Gedankenkette durchlaufen, bevor sie antworten — sichtbar oder verborgen. Bei diesen Modellen ist die manuelle Aufforderung "Denke Schritt für Schritt" oft überflüssig und kann das gewünschte Antwortformat sogar stören, weil das Modell ohnehin schon reasoniert. Die Faustregel verschiebt sich damit je nach Werkzeug: Bei klassischen Chat-Modellen bleibt explizites CoT ein starker Hebel; bei dedizierten Reasoning-Modellen formulierst du eher die Aufgabe klar und überlässt das Schlussfolgern dem Modell. Prüfe im Zweifel die Dokumentation des jeweiligen Anbieters — Anthropic, OpenAI und Google geben für ihre Reasoning-Modelle teils ausdrücklich an, dass man auf manuelle CoT-Anweisungen verzichten soll.
Die Faustregel
Setze CoT ein, sobald eine Aufgabe Mathematik, mehrstufige Logik, Planung oder das Abwägen mehrerer Bedingungen erfordert. Verzichte darauf bei Faktenabfragen, kurzen Klassifizierungen, Übersetzungen und überall dort, wo Geschwindigkeit oder Kürze zählen. Im Zweifel testest du beide Varianten an drei realen Beispielen und vergleichst Qualität gegen Kosten — genau diese Disziplin des Vergleichens unterscheidet professionelles Prompt Engineering vom Ausprobieren. Halte deine Ergebnisse fest: Wenn du einmal weißt, dass eine bestimmte Aufgabenklasse von CoT profitiert, sparst du dir den Test beim nächsten Mal und greifst direkt zur passenden Variante.
CoT in deinen Alltag einbauen
Damit CoT nicht bei einzelnen Experimenten bleibt, lohnt sich ein kleiner Prozess. Sammle die Aufgabentypen, die in deiner Arbeit immer wiederkehren — etwa Angebotskalkulationen, Fehlersuche in Logs oder das Priorisieren von Aufgaben nach mehreren Kriterien. Schreibe für jeden Typ einmal eine saubere CoT-Vorlage mit klarer Schrittstruktur und getrenntem Endergebnis, teste sie an drei echten Fällen und speichere die Gewinner zentral. So wird aus einer Technik eine wiederverwendbare Routine, die im Team konsistent dieselben Ergebnisse liefert. Eine gepflegte Prompt-Bibliothek wie Prompt2Love macht genau das möglich: Statt jedes Mal "Denke Schritt für Schritt" neu zu erfinden, rufst du deine erprobte Vorlage ab. Über viele Anfragen hinweg ist dieser Disziplinvorsprung größer als jeder einzelne Modellsprung — denn er macht gute Ergebnisse reproduzierbar statt zufällig.
Fazit
Chain-of-Thought-Prompting ist eine der wirkungsvollsten und zugleich einfachsten Techniken im Prompt Engineering. Eine einzige Aufforderung zum schrittweisen Denken verwandelt ein Modell, das bei Logik rät, in eines, das sauber rechnet — und macht den Lösungsweg dabei prüfbar. Der Preis sind zusätzliche Token und Latenz, weshalb du CoT gezielt für anspruchsvolle, mehrstufige Aufgaben reservierst und bei einfachen Abfragen darauf verzichtest.
Der nächste Schritt ist Übung: Nimm eine echte Aufgabe mit Rechen- oder Logikanteil, stelle ihr die Aufforderung "Denke Schritt für Schritt und nenne das Ergebnis am Ende separat" voran und vergleiche das Resultat mit der direkten Frage. Speichere die bessere Variante in deiner Prompt-Bibliothek, etwa in Prompt2Love, damit aus jeder gelungenen Kette eine wiederverwendbare Vorlage für dich und dein Team wird.
CoT ist dabei nur ein Baustein eines größeren Repertoires. Wer Rolle, Kontext, Format und Einschränkungen sauber setzt und sie mit der passenden Denk-Technik kombiniert, holt aus jedem Modell das Maximum heraus. Die systematische Grundlage dazu liefern die [Prompt-Engineering-Grundlagen](/de/magazin/prompt-engineering-fundamentals) — sie zeigen, wie CoT mit den fünf Bausteinen eines guten Prompts zusammenspielt und wann welche Kombination sinnvoll ist.
Die Drei-Punkte-Kurzfassung
1. Wofür: CoT macht Modelle bei Logik, Mathematik und mehrstufigen Aufgaben deutlich genauer, weil sie ihren Lösungsweg ausschreiben. 2. Wie: Hänge "Denke Schritt für Schritt" an, oder zeige bei Few-Shot ein bis drei durchgerechnete Beispiele und gib das Ergebnis am Ende separat aus. 3. Wann nicht: Bei einfachen Faktenfragen, kurzen Klassifizierungen und bei modernen Reasoning-Modellen, die intern bereits schlussfolgern.
Das könnte dich auch interessieren
15 Prompt-Engineering-Techniken, die wirklich funktionieren
15 erprobte Prompt-Engineering-Techniken mit Beispielen: Few-Shot, Chain-of-Thought, Rollen-Prompting, Self-Consistency und mehr. Praxisleitfaden für bessere KI-Ergebnisse 2026.
Prompt Engineering: Die Grundlagen
Prompt Engineering von Grund auf: Bausteine, Techniken, Iteration und die häufigsten Fehler. Der vollständige Leitfaden für verlässliche KI-Ergebnisse 2026.
Wie man wirkungsvolle KI-Prompts schreibt
Wirkungsvolle KI-Prompts schreiben: die fünf Bausteine, erprobte Formeln, ein wiederholbarer Prozess und die häufigsten Fehler. Der vollständige Praxisleitfaden für 2026.
