Wie Reasoning-Fähigkeiten während des RL-Trainings spontan entstehen
DeepSeek R1 zeigt Reasoning nicht durch explizites Programmieren, sondern spontan während RL-Trainings. Bei Epoch 5-7: Output-Länge explodiert, Thinking wird aktiviert.
Group Relative Policy Optimization erlaubt Modell, verschiedene Strategien zu erkunden. Bei SFT allein: kein Reasoning. Mit GRPO: Emergenz nach 1-2 Wochen Training.
Phase 1 (SFT): 1-2 Tage auf 8×H100. Phase 2 (GRPO): 7-10 Tage. Phase 3-4: kontinuierliche Verbesserung. Gesamt: ~2 Wochen vom Start bis SOTA-Performance.
SFT: max 300 Tokens. Nach Phase 2: 500-1K. Nach Emergenz: 2K-10K! Das Modell lernt: "Für harte Probleme, denke länger nach."
Menschen: einfache Aufgaben schnell gelöst, komplexe Probleme erfordern längeres Denken. DeepSeek R1: erlaubt variable Output-Länge je nach Task-Schwierigkeit → menschenähnliches Reasoning.
Denken = Compute bei Test-Time. Mehr Tokens = bessere Lösungen. DeepSeek O1: 10K-100K+ Thinking-Tokens. Nächste Generation: flexible Compute Allokation.