Scrolle durch die drei Phasen von Reinforcement Learning from Human Feedback: SFT, Reward Model Training, und PPO Optimization
Die RLHF-Pipeline besteht aus drei sequentiellen Phasen, die ein Basismodell schrittweise in einen ausgerichteten Assistenten verwandeln. Diese Scrollytelling-Visualisierung führt dich durch jede Phase im Detail.
Vertiefung von RLHF & Alignment (2/4) – mit detaillierter Pipeline-Visualisierung.
Die Pipeline-Sicht zeigt, wie verschiedene Modelle und Datenströme zusammenwirken. Dieses Systemverständnis ist essentiell für das Debugging und die Optimierung von RLHF.
Wir beginnen mit einem großen Language Model (z.B. GPT-3 175B), das auf massive Mengen Text vorgelernt wurde. Dieses Modell kann bereits gut Text generieren, aber es ist nicht speziell "aligned" mit Human-Präferenzen.
Datensammler (Human Annotators) schreiben hochwertige Antworten auf hunderte von Prompts. Wir fine-tunen das Base Model auf diesen Demonstrations mit Standard Supervised Learning (Next Token Prediction).
Für tausende Prompts lassen wir das SFT-Modell mehrere Antworten generieren. Human Annotatoren ranken diese (z.B. "Antwort A ist besser als Antwort B"). Ein separate Reward-Netzwerk lernt, diese Preferences zu predicten.
Mit dem trainierten Reward Model führen wir RL-Training durch. Das Modell generiert Antworten, erhält Rewards vom RM, und wird via Gradient Descent optimiert. Ein KL-Divergence Term verhindert, dass das Modell zu weit vom Original driftet.
Nach allen drei Phasen haben wir ein Modell, das: