Emergenz Timeline – DeepSeek R1

Emergenz Timeline: DeepSeek R1

Wie Reasoning-Fähigkeiten plötzlich während GRPO-Training emergieren – von 0% auf 90%+ in wenigen Iterationen

DeepSeek R1's Emergenz demonstriert eindrucksvoll, wie Reasoning-Fähigkeiten während GRPO-Training entstehen. Von anfänglicher Inkompetenz zu komplexem mehrstufigem Denken – und das ohne explizites Chain-of-Thought Training.

📖 Lern-Kontext ▼

GRPO als RL-Methode für Reasoning verstehen
Die Phasen der Emergenz nachvollziehen
DeepSeek R1's Architektur einordnen

Schritt 2/2 Trends & Zukunft

Vertiefung von emergenten Fähigkeiten (2/2) am Beispiel von DeepSeek R1.

DeepSeek R1 (Januar 2025) zeigt, dass Open-Source-Modelle mit o1 konkurrieren können. Die Methodik – GRPO statt RLHF – ist ein Paradigmenwechsel für Reasoning-Modelle.

GRPO: Group Relative Policy Optimization – einfacher als PPO
Cold Start: Beginnt ohne CoT, entwickelt es selbst
Open Source: Vollständig reproduzierbar und transparent

Schlüssel-Erkenntnisse

Emergenz ist plötzlich: DeepSeek R1-Zero zeigte fast 0% Reasoning während des ersten Trainings. Dann, bei Iteration ~400k, plötzlich Jump auf 20%. Das ist emergentes Verhalten – nicht graduell.

GRPO ≠ Standard RL: Group Relative Policy Optimization ist nicht PPO. Es optimiert relative Ranker zwischen Gruppen von Lösungen. Deswegen entstehen Reasoning-Fähigkeiten ohne Supervised Fine-Tuning.

Reward ist verifikationsbasiert: DeepSeek R1 nutzt nur korrektes-vs-falsches-Ergebnis als Signal, nicht step-by-step. Trotzdem lernt das Modell Chain-of-Thought. Das ist überraschend.

Base Model Qualität ist kritisch: R1-Zero trainiert auf Qwen-70B-Base (nicht Qwen-Chat). Mit Chat-Base würde SFT Bias das Reasoning unterdrücken. Base-Model ist unbefangen.

Langkettige CoT lernt von selbst: Kein Verfahren erzwingt lange Token-Ausgaben. Das Modell lernt selbständig, dass "Denken" (viele Tokens) bessere Accuracy ergibt. Das ist Lern-Erkenntnis.

Skalierung der Denkzeit ist möglich: O3 zeigt, dass mehr Compute während Inferenz (mehr Token zum Denken) bessere Ergebnisse ergibt. Das öffnet neue Skalierungsachse.

Emergenz Timeline: DeepSeek R1

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Wichtige Meilensteine

Schlüssel-Erkenntnisse