Training-Loss Verlauf

Interaktive Visualisierung eines typischen LLM-Pretrainings mit Phasenwechseln

5.0T
Phase 1 – Early Learning (0-2T):
Steiler Loss-Rückgang. Modell lernt Basis-Patterns (Syntax, häufige Konzepte)
Phase 2 – Deep Learning (2-8T):
Gradueller Loss-Rückgang. Lernt komplexe Konzepte, Abstraktionen, Generalisierung

Loss-Komponenten

Training-Loss besteht aus mehreren Komponenten, die unterschiedlich lernen

Kurz-Range Tokens

Aufgabe: Nächstes Token vorhersagen
Schwierigkeit: Mittel
Lernen: Schnell → früh plateaut

Lang-Range Dependencies

Aufgabe: Weit entfernte Context nutzen
Schwierigkeit: Hoch
Lernen: Langsam → später verbesserung
Key Insights

🔑 Schlüssel-Erkenntnisse

Skalierungsgesetze

Loss folgt Potenz-Gesetzen: Loss ∝ N^(-α) mit α ≈ 0.07 (Chinchilla Laws)

Chinchilla Optimum

Optimales Verhältnis: ~20 Tokens pro Parameter Größe und Daten gleichmäßig skalieren

Phasenwechsel

Early Learning (steil) → Deep Learning (graduell) Indikation für Emergent Abilities

Overfitting Risiko

Großes Vokabular + lange Sequenzen Weniger Data-Diversity = höheres Risiko

Validation Loss

Steigt später als Training Loss Kann als Early Stopping Kriterium dienen

Downstream Performance

Nicht direkt proportional zu Training Loss Emergent Abilities erscheinen "plötzlich"

Typische Training-Parameter

Datenmenge & Tokens

GPT-3: ~300B Tokens
GPT-3.5: ~1T Tokens
GPT-4: ~13T Tokens
Claude 3: ~4T Tokens

Hyperparameter

Learning Rate: 3e-4 → Cosine Decay
Batch Size: 1-4M Tokens
Warmup: 1-2% der Steps
Weight Decay: 0.1