Zwei Paradigmen für LLM-Alignment: Reinforcement Learning from Human Feedback (RLHF) vs Direct Preference Optimization (DPO)
| Aspekt | RLHF | DPO |
|---|---|---|
| Anzahl Netzwerke | 3 (Policy, Reward, Value) | 1 (Policy nur) |
| Trainings-Phasen | 3 (SFT → RM → PPO) | 2 (SFT → DPO) |
| Komplexität | Hoch Komplex | Niedrig Einfach |
| Stabilität | Mittel (KL-Divergenz Tuning nötig) | Hoch (stabiler per default) |
| Hyperparameter | Viele (T, β, learning rate, etc.) | Wenige (λ, learning rate) |
| Recheneffizienz | Moderat (generiert Samples) | Effizient 3× schneller |
| Reward-Model Qualität | Separat trainiert Fehlerhaft | Implizit Robust |
| Reward Hacking | Möglich (RM exploitable) | Weniger anfällig |
| Alignment Qualität | Sehr gut (bewährt) | Sehr gut (direkt) |
| Empirische Performance | SOTA (Claude, ChatGPT) | SOTA (Llama 2-Chat) |