RLHF Pipeline – LLM Explorer

RLHF Pipeline: Ein umfassender Überblick

Scrolle durch die drei Phasen von Reinforcement Learning from Human Feedback: SFT, Reward Model Training, und PPO Optimization

Die RLHF-Pipeline besteht aus drei sequentiellen Phasen, die ein Basismodell schrittweise in einen ausgerichteten Assistenten verwandeln. Diese Scrollytelling-Visualisierung führt dich durch jede Phase im Detail.

📖 Lern-Kontext ▼

Den Datenfluss durch alle drei RLHF-Phasen nachvollziehen
Die Rolle von Annotator-Feedback verstehen
Wie PPO das finale Modell optimiert begreifen

Schritt 2/4 Training & Inference

Vertiefung von RLHF & Alignment (2/4) – mit detaillierter Pipeline-Visualisierung.

Die Pipeline-Sicht zeigt, wie verschiedene Modelle und Datenströme zusammenwirken. Dieses Systemverständnis ist essentiell für das Debugging und die Optimierung von RLHF.

Phase 1 (SFT): Demonstrations-Daten → Fine-Tuned Model
Phase 2 (RM): Comparison-Daten → Reward Model
Phase 3 (PPO): RL-Optimierung → Aligned Model

Schritt 0 · Basis

Base Model (Pre-Trained)

Wir beginnen mit einem großen Language Model (z.B. GPT-3 175B), das auf massive Mengen Text vorgelernt wurde. Dieses Modell kann bereits gut Text generieren, aber es ist nicht speziell "aligned" mit Human-Präferenzen.

Status: Kann Text generieren, aber manchmal toxisch, faktisch falsch, oder unhilfreich

Phase 1 · Supervised Fine-Tuning (SFT)

SFT: Lernen von Demonstrations

Datensammler (Human Annotators) schreiben hochwertige Antworten auf hunderte von Prompts. Wir fine-tunen das Base Model auf diesen Demonstrations mit Standard Supervised Learning (Next Token Prediction).

Daten: ~10k-100k hochwertige Input-Output Paare
Ziel: Modell lernt, hilfreiche Antworten zu geben
Ergebnis: SFT-Modell, das bessere Qualität zeigt

Phase 2 · Reward Model Training

RM: Training eines Preference Classifiers

Für tausende Prompts lassen wir das SFT-Modell mehrere Antworten generieren. Human Annotatoren ranken diese (z.B. "Antwort A ist besser als Antwort B"). Ein separate Reward-Netzwerk lernt, diese Preferences zu predicten.

Input: Prompt + zwei Antworten (generiert vom SFT-Modell)
Output: Scalar Reward (höher = besser)
Kostenpunkt: 1.5-2× Kosten der SFT Phase

Phase 3 · Proximal Policy Optimization (PPO)

PPO: Reinforcement Learning Training

Mit dem trainierten Reward Model führen wir RL-Training durch. Das Modell generiert Antworten, erhält Rewards vom RM, und wird via Gradient Descent optimiert. Ein KL-Divergence Term verhindert, dass das Modell zu weit vom Original driftet.

Loss: L = r(x,y) - β·KL(π_θ || π_ref)
Batching: 512-2048 Prompts pro Update
Hyper-tuning: β (KL Koeffizient) ist kritisch

Ergebnis · Aligned Model

Die finale Antwort

Nach allen drei Phasen haben wir ein Modell, das:

Hilfreicher ist (SFT lernte Good-Format)
Ehrlicher ist (RM bestraft Halluzinationen)
Sicherer ist (RM bestraft toxische Inhalte)
Instruktions-folgsam ist (alles oben)

Schlüssel-Erkenntnisse zur RLHF Pipeline

Drei Phasen sind nicht optional: Jede Phase dient einem Zweck. SFT zeigt dem Modell das Format. RM trainiert "Geschmacks-Klassifizierung". PPO optimiert für Rewards. Man kann keine Phasen weglassen.

Reward Model Qualität ist kritisch: Wenn das RM trainiert ist auf schlechte Preferences-Daten, wird PPO das Modell in die falsche Richtung optimieren. Ein schlechter RM ist schlimmer als kein RM.

KL-Divergence Tuning: Der β Parameter ist entscheidend. Zu hoch: Modell ändert sich nicht (PPO wird nutzlos). Zu niedrig: Modell divergiert zu stark vom Original (Qualität zerfällt). Typisch: β=0.01-0.1.

Kosten sind enorm: RLHF-Training für große Modelle benötigt hunderte bis tausende von annotated Preference Pairs. OpenAI & Anthropic beschäftigen Hunderte von Annotatoren. Dies ist ein massive Engineering-Investment.

Neuere Alternativen existieren: DPO (Direct Preference Optimization) macht Reward-Model-Training überflüssig. IPO, KPO sind weitere Simplifikationen. Aber für State-of-Art braucht man immer noch RLHF.

Alignment ist nie "fertig": Mit neuen jailbreak-Techniken erscheinen neue Safety-Probleme. RLHF-Modelle brauchen kontinuierliche Updates. Das ist ein ongoing Process.

RLHF Pipeline: Ein umfassender Überblick

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways