Emergenz Timeline - DeepSeek R1

Emergenz Timeline: DeepSeek R1 Training

Wie Reasoning-Fähigkeiten während des RL-Trainings spontan entstehen

Emergente Reasoning-Fähigkeiten entstehen spontan während des RL-Trainings – nicht durch explizites Programmieren. Diese Animation zeigt, wie DeepSeek R1 innerhalb weniger Iterationen von 0% auf 90%+ Reasoning-Performance springt.

📖 Lern-Kontext ▼

Das Konzept der Emergenz bei LLMs verstehen
Die Rolle von RL-Training bei Reasoning begreifen
Die "Aha-Momente" im Training erkennen

Schritt 2/2 Trends & Zukunft

Nach Scaling & Komplexität (1/2) zeigen wir emergente Fähigkeiten (2/2) – was passiert, wenn Modelle größer werden.

Emergenz ist das überraschendste Phänomen bei LLMs: Fähigkeiten, die nicht explizit trainiert wurden, tauchen plötzlich auf. Das definiert die Grenzen dessen, was wir vorhersagen können.

Nicht-linear: Performance springt, statt graduell zu steigen
RL-getrieben: GRPO-Training löst die Emergenz aus
Unvorhersagbar: Wann genau Emergenz auftritt ist unklar

Spontane Emergenz

DeepSeek R1 zeigt Reasoning nicht durch explizites Programmieren, sondern spontan während RL-Trainings. Bei Epoch 5-7: Output-Länge explodiert, Thinking wird aktiviert.

GRPO ist kritisch

Group Relative Policy Optimization erlaubt Modell, verschiedene Strategien zu erkunden. Bei SFT allein: kein Reasoning. Mit GRPO: Emergenz nach 1-2 Wochen Training.

Training-Kosten

Phase 1 (SFT): 1-2 Tage auf 8×H100. Phase 2 (GRPO): 7-10 Tage. Phase 3-4: kontinuierliche Verbesserung. Gesamt: ~2 Wochen vom Start bis SOTA-Performance.

Output-Längen-Explosion

SFT: max 300 Tokens. Nach Phase 2: 500-1K. Nach Emergenz: 2K-10K! Das Modell lernt: "Für harte Probleme, denke länger nach."

Ähnlich wie Menschen

Menschen: einfache Aufgaben schnell gelöst, komplexe Probleme erfordern längeres Denken. DeepSeek R1: erlaubt variable Output-Länge je nach Task-Schwierigkeit → menschenähnliches Reasoning.

Zukunft: Test-Time Scaling

Denken = Compute bei Test-Time. Mehr Tokens = bessere Lösungen. DeepSeek O1: 10K-100K+ Thinking-Tokens. Nächste Generation: flexible Compute Allokation.

Emergenz Timeline: DeepSeek R1 Training

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Performance während Training