Wie LLMs trainiert werden: Zusammensetzung von Web, Büchern, Code und akademischen Quellen
Daten-Zusammensetzung ist der unterschätzte Faktor bei LLM-Qualität: Die Mischung aus Web, Büchern, Code und akademischen Quellen bestimmt, was ein Modell lernt – und was nicht. "Garbage in, garbage out" gilt auch für Billionen Token.
Nach Scaling Laws (1/5) untersuchen wir Data & Training (2/5) – woraus LLMs lernen.
Datenqualität trumpft Modellgröße: Llama 2 ist besser als GPT-3 teils durch sorgfältigere Datenkuration. Das Verständnis der Daten erklärt Stärken und Schwächen.
Die Balance zwischen verschiedenen Datenquellen bestimmt das Modellverhalten
CommonCrawl macht 50-70% der Daten aus. Größte verfügbare, aber qualitativ variabel.
Hochwertige, längerfristige Abhängigkeiten. Google Books, Project Gutenberg, akademische Quellen.
GitHub, GitLab, Stack Overflow. Trägt zu Reasoning und Tool-Use bei.
arXiv, Papers, Dissertationen. Kleine Menge, aber hohe konzeptionelle Dichte.
Entfernt Duplikate, verbessert Generalisierung. Komplexe Algorithmen (BloomFilter, exact matching).
Große Dateien ≠ mehr Token. Tokenization variiert nach Sprache und Domain.