Wie Reasoning-Fähigkeiten plötzlich während GRPO-Training emergieren – von 0% auf 90%+ in wenigen Iterationen
DeepSeek R1's Emergenz demonstriert eindrucksvoll, wie Reasoning-Fähigkeiten während GRPO-Training entstehen. Von anfänglicher Inkompetenz zu komplexem mehrstufigem Denken – und das ohne explizites Chain-of-Thought Training.
Vertiefung von emergenten Fähigkeiten (2/2) am Beispiel von DeepSeek R1.
DeepSeek R1 (Januar 2025) zeigt, dass Open-Source-Modelle mit o1 konkurrieren können. Die Methodik – GRPO statt RLHF – ist ein Paradigmenwechsel für Reasoning-Modelle.