KAPITEL 3.2 · REASONING

o1/o3: Verstecktes Reasoning

Wie moderne Reasoning-Modelle interne Denkvorgänge nutzen, um komplexe Probleme zu lösen – mit Denkzeit statt Modellgröße

Hidden Reasoning bei o1/o3: OpenAI's Modelle generieren interne „Thinking Tokens", die dem Nutzer nicht gezeigt werden. Diese versteckte Kette kann hunderte von Schritten umfassen — Test-Time Compute als neue Skalierungsachse.

📖 Lern-Kontext ▼

Hidden vs. Visible Reasoning unterscheiden
Summarization des Denkprozesses verstehen
Trade-off: Mehr Denken = höhere Kosten

Schritt 2/5 Reasoning & Test-Time Compute

Nach CoT-Grundlagen: Wie kommerzielle Modelle Reasoning industrialisieren.

o1 erreicht 83% auf AIME Math (vs. 13% bei GPT-4). Der Schlüssel: Thinking Tokens, die während der Inferenz generiert werden. Compute-Zeit wird zur neuen Ressource.

Thinking Tokens: Interne Reasoning-Kette, nicht sichtbar
Summarization: Nur das Ergebnis wird gezeigt
Skalierungsachse: Mehr Compute bei Inferenz = bessere Ergebnisse

Das neue Paradigma: Denken vor dem Antworten

OpenAI's o-Serie (o1 September 2024, o3 April 2025) repräsentiert einen Paradigmenwechsel in der LLM-Entwicklung. Diese Modelle generieren eine interne Chain-of-Thought, die dem Nutzer verborgen bleibt. Das Modell „denkt" vor dem Antworten, und die Qualität verbessert sich mit mehr Denkzeit.

Denkzeit-Budget: 50%

Abb. 1 | Normal (oben): Alle Token sichtbar. o1-Stil (unten): Denkvorgänge verborgen, nur Antwort sichtbar. Der Schieberegler steuert die interne Denkzeit.

Was ist „Hidden Reasoning"?

Explizites CoT: Prompting-Technik, bei der das Modell seine Überlegungen sichtbar macht (z.B. „Lass uns Schritt für Schritt denken")
Hidden Reasoning: RL-trainierte Fähigkeit, intern zu denken ohne Gedanken dem Nutzer zu zeigen

Fehlerkorrektur

Das Modell korrigiert Fehler intern, ohne dass der Nutzer inkonsistente Zwischenschritte sieht.

Mehrere Ansätze

Das Modell exploriert mehrere Lösungswege intern und wählt den besten aus.

Sicherheit

Thinking-Output kann ohne Sicherheitsbedenken gefiltert werden – nur finale Antwort wird gezeigt.

Section 2: Test-Time Compute Scaling

Test-Time Compute: Mehr Denken statt Größe

Ein Schlüssel-Insight aus der Forschung: Optimale Zuteilung von Test-Time Compute kann einen 14× Parameter-Vorteil kompensieren. Statt das Modell größer zu machen, kann man die Inferenzzeit erhöhen und das Modell „intensiver denken" lassen.

Abb. 2 | Test-Time Compute Scaling: Wie Denkzeit (sequenzielle Skalierung) die Qualität verbessert, ohne das Modell zu vergrößern. Drei Ansätze: Parallel (mehrere Outputs), Sequenziell (iterativ), Intern (o1-Stil).

Three Approaches to Test-Time Scaling

1. Parallel: Generate N outputs, select best
2. Sequential: Iterative refinement
3. Internal (o1): Model decides allocation

Benchmark-Ergebnisse: Der Performance-Sprung

Die o-Serie zeigt dramatische Verbesserungen auf schwierigen Reasoning-Benchmarks, die frühere Modelle nicht lösen konnten:

Abb. 3 | Performance-Vergleich: o3 zeigt beeindruckende Ergebnisse auf Frontier Math (25.2% vs <2% für frühere Modelle), AIME (88.9%) und SWE-Bench (69.1%).

Benchmark	Beschreibung	o3 Ergebnis	Kontext
AIME 2025	American Inv. Math Exam	88.9%	Olympiad-Level Mathematik
SWE-Bench	Software Engineering	69.1%	Real-world Code Changes
Frontier Math	Forschungs-Mathematik	25.2%	Vorher: <2% für alle Modelle

Explizites vs. Verstecktes CoT

Wie unterscheiden sich die beiden Ansätze in der Praxis?

Abb. 4 | Links: Explizites CoT zeigt alle Denkvorgänge, Fehler sind sichtbar. Rechts: o1-Stil versteckt Denken, zeigt nur saubere Antwort.

🔍 Explizites CoT

Prompting-Technik, Nutzer sieht alle Fehler und Umwege. Funktioniert mit größeren Modellen besser.

🧠 Hidden Reasoning

RL-trainiert, interne Fehlerkorrektur, sauberer Output. Paradigmenwechsel zu Test-Time Compute.

⚖️ Trade-off

Hidden: teurer Inference. Explizit: transparenter. Wahl hängt vom Use-Case ab.

Wie o1/o3 intern denkt: Der RL-Trainings-Loop

o1/o3 werden nicht durch Supervised Fine-Tuning trainiert. Stattdessen nutzen sie Reinforcement Learning mit verifizierbaren Rewards. Das Modell lernt durch Trial-and-Error:

RL Training Process

1. Modell generiert interne Reasoning-Tokens
2. Viele Gedankenpfade explorieren
3. Verifiable Rewards: Korrektheit? ✓ Code läuft? ✓
4. RL bestraft falsche Pfade, belohnt richtige
5. Modell lernt, Denkzeit effizient zu nutzen

Abb. 5 | Der RL-Loop: Das Modell generiert Reasoning-Tokens, erhält Feedback (verifiable rewards), und optimiert sein Verhalten. Dies geschieht völlig intern – der Nutzer sieht nur die finale Antwort.

Key Insights des Trainings

Verifiable Rewards

Mathematische Korrektheit, Code-Ausführung, Formal Verification – Belohnung nur für objektiv überprüfbare Ausgaben.

Keine Supervised Demos

Kein manuelles Annotieren von Denkvorgängen. Das Modell entdeckt das Reasoning spontan durch RL.

Error Correction

Das Modell lernt, eigene Fehler zu erkennen und zu korrigieren – alles intern, vor der Antwort.

Denkzeit ≠ Modellgröße

Test-Time Compute kann größere Modelle kompensieren. Effizienz-Paradigmawechsel.

Neue Skalierungsgesetze: Training + Inference

Traditionell folgen LLMs dem Chinchilla Scaling Law: Modellgröße × Trainings-Daten. Mit o1/o3 kommt eine neue Dimension hinzu: Test-Time Compute.

Abb. 6 | 3D-Skalierung: Statt nur Modellgröße und Trainingsdaten zu erhöhen, kann man auch Test-Time Compute erhöhen. Neue Architektur für Effizienz-Abwägungen.

Implikationen für die Zukunft

Kostenoptimierung: Klein + viel Denkzeit kann besser sein als groß + wenig Zeit
Inference-Kosten: „Thinking Tokens" sind kostspieliger – Trade-off mit Qualität
Modell-Auswahl: Nicht immer für größeres Modell upgraden – Denkzeit erhöhen
Training-Paradigma: RL wird zentraler (statt nur Supervised Fine-Tuning)

Limitationen und Zukunftsfragen

Aktuelle Limitationen

🔍 Black Box

Nutzer kann nicht sehen, wie das Modell denkt. Debugging von Fehlern ist schwierig.

💰 Kostspielig

Mehr Denkzeit = höhere Inferenzkosten. ROI-Berechnung notwendig für jeden Use-Case.

✓ Verifizierbarkeit

Funktioniert best für Probleme mit objektiven Antworten (Mathe, Code). Für Open-Ended Aufgaben schwächer.

Zukünftige Richtungen (Q4 2025–2026)

Reasoning + Kontext: Kombination mit unbegrenztem Kontext für lange Dokumente
MoE Integration: Efficient Reasoning durch Mixture-of-Experts
Multi-Domain: Über Math/Code hinaus – auch NLP, Reasoning für andere Felder
Transparenz: Selektive Offenlegung von Thinking-Prozessen?

Vision für nächste Grenze

„Die nächste Grenze liegt in der Integration dieser Fortschritte: Reasoning-Modelle mit unbegrenztem Kontext, effizient durch MoE und Quantization, aligniert durch skalierbare AI-Feedback-Methoden."

Section 8: Key Takeaways

Kernerkenntnisse

1️⃣ Paradigmenwechsel

Nicht mehr: Größer = besser. Neu: Denkzeit = besser. RL-Training statt nur Supervised Fine-Tuning.

2️⃣ Verifiable Rewards

RL mit objektiven Belohnungen (Korrektheit) ermöglicht spontanes Reasoning ohne manuelle Annotation.

3️⃣ Test-Time Compute

Denkzeit kompensiert bis zu 14× Parameter. Neue Effizienz-Abwägungen für Deployment.

4️⃣ Performance-Sprung

AIME 88.9%, Frontier Math 25.2% (von <2%) – qualitativer Sprung in Reasoning-Fähigkeiten.

5️⃣ Trade-offs

Hidden Reasoning: Teuer, Black-Box, aber saubere Ausgabe. Explizites CoT: Billiger, transparent, fehlerhaft.

6️⃣ Zukunft Multi-Modal

Integration mit Kontext, MoE, Multi-Domain Reasoning. Aber Transparenz-Fragen bleiben offen.