Wie sich Loss während des Pretrainings entwickelt und welche Phasen durchlaufen werden
Interaktive Visualisierung eines typischen LLM-Pretrainings mit Phasenwechseln
Training-Loss besteht aus mehreren Komponenten, die unterschiedlich lernen
Loss folgt Potenz-Gesetzen: Loss ∝ N^(-α) mit α ≈ 0.07 (Chinchilla Laws)
Optimales Verhältnis: ~20 Tokens pro Parameter Größe und Daten gleichmäßig skalieren
Early Learning (steil) → Deep Learning (graduell) Indikation für Emergent Abilities
Großes Vokabular + lange Sequenzen Weniger Data-Diversity = höheres Risiko
Steigt später als Training Loss Kann als Early Stopping Kriterium dienen
Nicht direkt proportional zu Training Loss Emergent Abilities erscheinen "plötzlich"