Wie sich Loss während des Pretrainings entwickelt und welche Phasen durchlaufen werden
Training-Loss Kurven zeigen den Herzschlag des LLM-Trainings: Wie das Modell langsam lernt, Muster zu erkennen und Sprache zu verstehen. Die charakteristischen Phasen – vom schnellen Anfangslernen bis zum graduellen Plateau – offenbaren fundamentale Prinzipien des Deep Learning.
Grundlagen des Trainings (1/4) legen das Fundament für RLHF (2/4), Sampling (3/4) und Inferenz-Optimierung (4/4).
Loss-Kurven sind das primäre Diagnosewerkzeug beim Training. Sie zeigen sofort, ob Training konvergiert, stagniert oder instabil ist – unverzichtbar für jeden, der LLMs trainiert oder deren Training analysiert.
Interaktive Visualisierung eines typischen LLM-Pretrainings mit Phasenwechseln
Training-Loss besteht aus mehreren Komponenten, die unterschiedlich lernen
Loss folgt Potenz-Gesetzen: Loss ∝ N^(-α) mit α ≈ 0.07 (Chinchilla Laws)
Optimales Verhältnis: ~20 Tokens pro Parameter Größe und Daten gleichmäßig skalieren
Early Learning (steil) → Deep Learning (graduell) Indikation für Emergent Abilities
Großes Vokabular + lange Sequenzen Weniger Data-Diversity = höheres Risiko
Steigt später als Training Loss Kann als Early Stopping Kriterium dienen
Nicht direkt proportional zu Training Loss Emergent Abilities erscheinen "plötzlich"