Architektur-Vergleich

RLHF (Traditional)

Policy π
Value Network V
PPO Training
⚙️ 3 Netzwerke: Policy, Reward, Value
📊 3 Trainings-Phasen: SFT, RM, PPO
🎯 Explizites Reward-Model: Separate Architektur

DPO (Modern)

Reference π_ref
Policy π_θ
Direct Preference Optimization
⚙️ 1 Netzwerk: Policy + Reference
📊 1 Trainings-Phase: Direct auf Preferences
🎯 Implizites Reward: In Loss-Funktion

Detaillierter Vergleich

Aspekt RLHF DPO
Anzahl Netzwerke 3 (Policy, Reward, Value) 1 (Policy nur)
Trainings-Phasen 3 (SFT → RM → PPO) 2 (SFT → DPO)
Komplexität Hoch Komplex Niedrig Einfach
Stabilität Mittel (KL-Divergenz Tuning nötig) Hoch (stabiler per default)
Hyperparameter Viele (T, β, learning rate, etc.) Wenige (λ, learning rate)
Recheneffizienz Moderat (generiert Samples) Effizient 3× schneller
Reward-Model Qualität Separat trainiert Fehlerhaft Implizit Robust
Reward Hacking Möglich (RM exploitable) Weniger anfällig
Alignment Qualität Sehr gut (bewährt) Sehr gut (direkt)
Empirische Performance SOTA (Claude, ChatGPT) SOTA (Llama 2-Chat)

Schlüssel-Erkenntnisse

1
RLHF ist altbewährt: Entwickelt für ChatGPT und verfeinert in Claude, GPT-4. Die Methode ist bewährt, aber komplex: Sie braucht ein separate Reward Model, das selbst trainiert und überwacht werden muss.
2
DPO ist moderneres Paradigma: Rafailov et al. (2023) zeigen, dass man Preference Optimization direkt ohne Reward Model durchführen kann. Die Reward-Funktion wird implizit in der Loss-Funktion codiert.
3
Praktischer Vergleich: RLHF benötigt etwa 3 GPUs (für 3 Netzwerke) und 3 Trainings-Loops. DPO läuft auf 1 GPU mit 1 Loop. Für gleiche Ergebnisse ist DPO typisch 3-5× schneller.
4
Reward Hacking Problem: In RLHF kann der Policy lernen, das Reward Model zu "hacken": Generieren von Text, der hoch bewertet wird, aber vom Human Judges nicht als gut beurteilt. DPO verhindert dies durch direkte Preference-Optimierung.
5
Hybrid-Ansätze: Moderne Forschung kombiniert beide: DPO für schnelles Initial-Alignment, dann iterative RLHF für Verfeinerung. Oder: Constitutional AI mit automatischen Kritik-Prompts statt explizitem Reward Model.
6
Zukunftstrend: DPO und Varianten (IPO, KPO) werden zum neuen Standard, da sie einfacher, schneller und weniger fehleranfällig sind. Große Labore (Anthropic, OpenAI) nutzen weiterhin RLHF für maximale Qualität, aber kleinere Teams wählen DPO.