KAPITEL 6.2b · RLHF & ALIGNMENT

RLHF vs DPO Vergleich

Zwei Paradigmen für LLM-Alignment: Reinforcement Learning from Human Feedback (RLHF) vs Direct Preference Optimization (DPO)

RLHF vs. DPO repräsentiert zwei Generationen von Alignment-Methoden. RLHF braucht ein separates Reward-Model, DPO optimiert direkt auf Präferenzdaten – einfacher, aber mit anderen Trade-offs.

📖 Lern-Kontext ▼

Die architekturellen Unterschiede zwischen RLHF und DPO verstehen
Trade-offs beider Methoden abwägen können
Wann welche Methode sinnvoll ist einschätzen

Schritt 2/4 Training & Inference

Vertiefung von RLHF & Alignment (2/4) – Vergleich der Alignment-Paradigmen.

DPO (2023) revolutioniert das Alignment durch Wegfall des Reward Models. Viele moderne Modelle wie Llama 2 nutzen DPO – das Verständnis beider Methoden ist praxisrelevant.

RLHF: Flexibel, aber komplex (3 Phasen, instabil)
DPO: Direkt auf Preferences, stabiler, einfacher
Praxis: DPO oft bevorzugt für Effizienz

Architektur-Vergleich

RLHF (Traditional)

Policy π

↓

Reward Model r

↓

Value Network V

↓

PPO Training

⚙️ 3 Netzwerke: Policy, Reward, Value

📊 3 Trainings-Phasen: SFT, RM, PPO

🎯 Explizites Reward-Model: Separate Architektur

DPO (Modern)

Reference π_ref

↓

Policy π_θ

↓

Direct Preference Optimization

⚙️ 1 Netzwerk: Policy + Reference

📊 1 Trainings-Phase: Direct auf Preferences

🎯 Implizites Reward: In Loss-Funktion

Detaillierter Vergleich

Aspekt	RLHF	DPO
Anzahl Netzwerke	3 (Policy, Reward, Value)	1 (Policy nur)
Trainings-Phasen	3 (SFT → RM → PPO)	2 (SFT → DPO)
Komplexität	Hoch Komplex	Niedrig Einfach
Stabilität	Mittel (KL-Divergenz Tuning nötig)	Hoch (stabiler per default)
Hyperparameter	Viele (T, β, learning rate, etc.)	Wenige (λ, learning rate)
Recheneffizienz	Moderat (generiert Samples)	Effizient 3× schneller
Reward-Model Qualität	Separat trainiert Fehlerhaft	Implizit Robust
Reward Hacking	Möglich (RM exploitable)	Weniger anfällig
Alignment Qualität	Sehr gut (bewährt)	Sehr gut (direkt)
Empirische Performance	SOTA (Claude, ChatGPT)	SOTA (Llama 2-Chat)

Schlüssel-Erkenntnisse

RLHF ist altbewährt: Entwickelt für ChatGPT und verfeinert in Claude, GPT-4. Die Methode ist bewährt, aber komplex: Man braucht ein separates Reward Model, das selbst trainiert und überwacht werden muss.

DPO ist moderneres Paradigma: Rafailov et al. (2023) zeigen, dass man Preference Optimization direkt ohne Reward Model durchführen kann. Die Reward-Funktion wird implizit in der Loss-Funktion codiert.

Praktischer Vergleich: RLHF benötigt etwa 3 GPUs (für 3 Netzwerke) und 3 Trainings-Loops. DPO läuft auf 1 GPU mit 1 Loop. Für gleiche Ergebnisse ist DPO typisch 3-5× schneller.

Reward Hacking Problem: In RLHF kann der Policy lernen, das Reward Model zu "hacken": Generieren von Text, der hoch bewertet wird, aber vom Human Judges nicht als gut beurteilt. DPO verhindert dies durch direkte Preference-Optimierung.

Hybrid-Ansätze: Moderne Forschung kombiniert beide: DPO für schnelles Initial-Alignment, dann iterative RLHF für Verfeinerung. Oder: Constitutional AI mit automatischen Kritik-Prompts statt explizitem Reward Model.

Zukunftstrend: DPO und Varianten (IPO, KPO) werden zum neuen Standard, da sie einfacher, schneller und weniger fehleranfällig sind. Große Labore (Anthropic, OpenAI) nutzen weiterhin RLHF für maximale Qualität, aber kleinere Teams wählen DPO.

RLHF vs DPO Vergleich

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Architektur-Vergleich

RLHF (Traditional)

DPO (Modern)

Detaillierter Vergleich

Schlüssel-Erkenntnisse