KAPITEL 6.1 · TRAINING

Training-Loss Kurven

Wie sich Loss während des Pretrainings entwickelt und welche Phasen durchlaufen werden

Training-Loss Kurven zeigen den Herzschlag des LLM-Trainings: Wie das Modell langsam lernt, Muster zu erkennen und Sprache zu verstehen. Die charakteristischen Phasen – vom schnellen Anfangslernen bis zum graduellen Plateau – offenbaren fundamentale Prinzipien des Deep Learning.

📖 Lern-Kontext ▼

Die typischen Phasen einer Training-Loss-Kurve verstehen
Overfitting vs. Underfitting an Kurven erkennen können
Die Bedeutung des Loss als Qualitätsmaß begreifen

Schritt 1/4 Training & Inference

Grundlagen des Trainings (1/4) legen das Fundament für RLHF (2/4), Sampling (3/4) und Inferenz-Optimierung (4/4).

Loss-Kurven sind das primäre Diagnosewerkzeug beim Training. Sie zeigen sofort, ob Training konvergiert, stagniert oder instabil ist – unverzichtbar für jeden, der LLMs trainiert oder deren Training analysiert.

Exponentieller Start: Loss fällt schnell in den ersten Epochs
Plateau-Phase: Fortschritt verlangsamt sich, Feintuning-Effekte
Validation Gap: Divergenz zeigt Overfitting an

Training-Loss Verlauf

Interaktive Visualisierung eines typischen LLM-Pretrainings mit Phasenwechseln

Tokens (Billionen): 5.0T

Phase 1 – Early Learning (0-2T):
Steiler Loss-Rückgang. Modell lernt Basis-Patterns (Syntax, häufige Konzepte)

Phase 2 – Deep Learning (2-8T):
Gradueller Loss-Rückgang. Lernt komplexe Konzepte, Abstraktionen, Generalisierung

Loss-Komponenten

Training-Loss besteht aus mehreren Komponenten, die unterschiedlich lernen

Kurz-Range Tokens

Aufgabe: Nächstes Token vorhersagen

Schwierigkeit: Mittel

Lernen: Schnell → früh plateaut

Lang-Range Dependencies

Aufgabe: Weit entfernte Context nutzen

Schwierigkeit: Hoch

Lernen: Langsam → später verbesserung

Key Insights

🔑 Schlüssel-Erkenntnisse

Skalierungsgesetze

Loss folgt Potenz-Gesetzen: Loss ∝ N^(-α) mit α ≈ 0.07 (Chinchilla Laws)

Chinchilla Optimum

Optimales Verhältnis: ~20 Tokens pro Parameter Größe und Daten gleichmäßig skalieren

Phasenwechsel

Early Learning (steil) → Deep Learning (graduell) Indikation für Emergent Abilities

Overfitting Risiko

Großes Vokabular + lange Sequenzen Weniger Data-Diversity = höheres Risiko

Validation Loss

Steigt später als Training Loss Kann als Early Stopping Kriterium dienen

Downstream Performance

Nicht direkt proportional zu Training Loss Emergent Abilities erscheinen "plötzlich"

Typische Training-Parameter

Datenmenge & Tokens

GPT-3: ~300B Tokens

GPT-3.5: ~1T Tokens

GPT-4: ~13T Tokens

Claude 3: ~4T Tokens

Hyperparameter

Learning Rate: 3e-4 → Cosine Decay

Batch Size: 1-4M Tokens

Warmup: 1-2% der Steps

Weight Decay: 0.1