Performance während Training

Phase 1: SFT
Output Length: ~300 Tokens
Acc: ~60%
Phase 2: GRPO
Group Relative Policy Optimization
Output Length: ~500 Tokens
Acc: ~65%
Phase 3: CoT Emergence
Chain-of-Thought Reasoning spontan
Output Length: ~2000-5000 Tokens
Acc: ~72-78%
Phase 4: Verification
Self-Verification und Refinement
Output Length: ~5000-10000 Tokens
Acc: ~82-85%

Spontane Emergenz

DeepSeek R1 zeigt Reasoning nicht durch explizites Programmieren, sondern spontan während RL-Trainings. Bei Epoch 5-7: Output-Länge explodiert, Thinking wird aktiviert.

GRPO ist kritisch

Group Relative Policy Optimization erlaubt Modell, verschiedene Strategien zu erkunden. Bei SFT allein: kein Reasoning. Mit GRPO: Emergenz nach 1-2 Wochen Training.

Training-Kosten

Phase 1 (SFT): 1-2 Tage auf 8×H100. Phase 2 (GRPO): 7-10 Tage. Phase 3-4: kontinuierliche Verbesserung. Gesamt: ~2 Wochen vom Start bis SOTA-Performance.

Output-Längen-Explosion

SFT: max 300 Tokens. Nach Phase 2: 500-1K. Nach Emergenz: 2K-10K! Das Modell lernt: "Für harte Probleme, denke länger nach."

Ähnlich wie Menschen

Menschen: einfache Aufgaben schnell gelöst, komplexe Probleme erfordern längeres Denken. DeepSeek R1: erlaubt variable Output-Länge je nach Task-Schwierigkeit → menschenähnliches Reasoning.

Zukunft: Test-Time Scaling

Denken = Compute bei Test-Time. Mehr Tokens = bessere Lösungen. DeepSeek O1: 10K-100K+ Thinking-Tokens. Nächste Generation: flexible Compute Allokation.