Wie moderne Reasoning-Modelle interne Denkvorgänge nutzen, um komplexe Probleme zu lösen – mit Denkzeit statt Modellgröße
Hidden Reasoning bei o1/o3: OpenAI's Modelle generieren interne „Thinking Tokens", die dem Nutzer nicht gezeigt werden. Diese versteckte Kette kann hunderte von Schritten umfassen — Test-Time Compute als neue Skalierungsachse.
Nach CoT-Grundlagen: Wie kommerzielle Modelle Reasoning industrialisieren.
o1 erreicht 83% auf AIME Math (vs. 13% bei GPT-4). Der Schlüssel: Thinking Tokens, die während der Inferenz generiert werden. Compute-Zeit wird zur neuen Ressource.
OpenAI's o-Serie (o1 September 2024, o3 April 2025) repräsentiert einen Paradigmenwechsel in der LLM-Entwicklung. Diese Modelle generieren eine interne Chain-of-Thought, die dem Nutzer verborgen bleibt. Das Modell „denkt" vor dem Antworten, und die Qualität verbessert sich mit mehr Denkzeit.
Das Modell korrigiert Fehler intern, ohne dass der Nutzer inkonsistente Zwischenschritte sieht.
Das Modell exploriert mehrere Lösungswege intern und wählt den besten aus.
Thinking-Output kann ohne Sicherheitsbedenken gefiltert werden – nur finale Antwort wird gezeigt.
Ein Schlüssel-Insight aus der Forschung: Optimale Zuteilung von Test-Time Compute kann einen 14× Parameter-Vorteil kompensieren. Statt das Modell größer zu machen, kann man die Inferenzzeit erhöhen und das Modell „intensiver denken" lassen.
Die o-Serie zeigt dramatische Verbesserungen auf schwierigen Reasoning-Benchmarks, die frühere Modelle nicht lösen konnten:
| Benchmark | Beschreibung | o3 Ergebnis | Kontext |
|---|---|---|---|
| AIME 2025 | American Inv. Math Exam | 88.9% | Olympiad-Level Mathematik |
| SWE-Bench | Software Engineering | 69.1% | Real-world Code Changes |
| Frontier Math | Forschungs-Mathematik | 25.2% | Vorher: <2% für alle Modelle |
Wie unterscheiden sich die beiden Ansätze in der Praxis?
Prompting-Technik, Nutzer sieht alle Fehler und Umwege. Funktioniert mit größeren Modellen besser.
RL-trainiert, interne Fehlerkorrektur, sauberer Output. Paradigmenwechsel zu Test-Time Compute.
Hidden: teurer Inference. Explizit: transparenter. Wahl hängt vom Use-Case ab.
o1/o3 werden nicht durch Supervised Fine-Tuning trainiert. Stattdessen nutzen sie Reinforcement Learning mit verifizierbaren Rewards. Das Modell lernt durch Trial-and-Error:
Mathematische Korrektheit, Code-Ausführung, Formal Verification – Belohnung nur für objektiv überprüfbare Ausgaben.
Kein manuelles Annotieren von Denkvorgängen. Das Modell entdeckt das Reasoning spontan durch RL.
Das Modell lernt, eigene Fehler zu erkennen und zu korrigieren – alles intern, vor der Antwort.
Test-Time Compute kann größere Modelle kompensieren. Effizienz-Paradigmawechsel.
Traditionell folgen LLMs dem Chinchilla Scaling Law: Modellgröße × Trainings-Daten. Mit o1/o3 kommt eine neue Dimension hinzu: Test-Time Compute.
Nutzer kann nicht sehen, wie das Modell denkt. Debugging von Fehlern ist schwierig.
Mehr Denkzeit = höhere Inferenzkosten. ROI-Berechnung notwendig für jeden Use-Case.
Funktioniert best für Probleme mit objektiven Antworten (Mathe, Code). Für Open-Ended Aufgaben schwächer.
Nicht mehr: Größer = besser. Neu: Denkzeit = besser. RL-Training statt nur Supervised Fine-Tuning.
RL mit objektiven Belohnungen (Korrektheit) ermöglicht spontanes Reasoning ohne manuelle Annotation.
Denkzeit kompensiert bis zu 14× Parameter. Neue Effizienz-Abwägungen für Deployment.
AIME 88.9%, Frontier Math 25.2% (von <2%) – qualitativer Sprung in Reasoning-Fähigkeiten.
Hidden Reasoning: Teuer, Black-Box, aber saubere Ausgabe. Explizites CoT: Billiger, transparent, fehlerhaft.
Integration mit Kontext, MoE, Multi-Domain Reasoning. Aber Transparenz-Fragen bleiben offen.