KAPITEL 8.1b · TRAINING

Daten-Zusammensetzung

Wie LLMs trainiert werden: Zusammensetzung von Web, Büchern, Code und akademischen Quellen

Daten-Zusammensetzung ist der unterschätzte Faktor bei LLM-Qualität: Die Mischung aus Web, Büchern, Code und akademischen Quellen bestimmt, was ein Modell lernt – und was nicht. "Garbage in, garbage out" gilt auch für Billionen Token.

📖 Lern-Kontext ▼

Typische Datenquellen für LLM-Training kennen
Die Bedeutung von Datenqualität vs. -quantität verstehen
Häufige Daten-Biases einordnen können

Schritt 2/5 Kapitel 8: Werkzeuge & Glossar

Nach Scaling Laws (1/5) untersuchen wir Data & Training (2/5) – woraus LLMs lernen.

Datenqualität trumpft Modellgröße: Llama 2 ist besser als GPT-3 teils durch sorgfältigere Datenkuration. Das Verständnis der Daten erklärt Stärken und Schwächen.

Web-Crawls: ~80% der Daten, aber mit Noise
Bücher & Papers: Hochqualitativ, aber begrenzt
Code: Verbessert Reasoning überraschend stark

Training-Daten Zusammensetzung

Die Balance zwischen verschiedenen Datenquellen bestimmt das Modellverhalten

CommonCrawl (Web)

~60%

Bücher & Artikel

~20%

Programmiercode

~12%

Akademische Quellen

~5%

Sonstiges

~3%

Vergleich: Daten-Mix verschiedener Modelle

GPT-4

Web: ~50%

Bücher: ~20%

Code: ~15%

Akademisch: ~10%

Größe: ~1.76T Token

Llama 3

Web: ~60%

Bücher: ~15%

Code: ~15%

Akademisch: ~5%

Größe: ~15T Token

Claude (Anthropic)

Web: ~55%

Bücher: ~25%

Code: ~12%

Akademisch: ~8%

Größe: ~4T Token

Mistral 7B

Web: ~70%

Bücher: ~10%

Code: ~12%

Akademisch: ~8%

Größe: ~600B Token

Key Insights

🔑 Schlüssel-Erkenntnisse

Web dominiert

CommonCrawl macht 50-70% der Daten aus. Größte verfügbare, aber qualitativ variabel.

Bücher für Qualität

Hochwertige, längerfristige Abhängigkeiten. Google Books, Project Gutenberg, akademische Quellen.

Code für Capabilities

GitHub, GitLab, Stack Overflow. Trägt zu Reasoning und Tool-Use bei.

Akademische Rigor

arXiv, Papers, Dissertationen. Kleine Menge, aber hohe konzeptionelle Dichte.

Deduplizierung

Entfernt Duplikate, verbessert Generalisierung. Komplexe Algorithmen (BloomFilter, exact matching).

Token vs. Datei

Große Dateien ≠ mehr Token. Tokenization variiert nach Sprache und Domain.

Daten-Qualität & Bereinigung

Selektion & Filterung

Language Detection: Nur Zielsprache

Quality Scoring: Entfernen Low-Quality

Perplexity Filtering: LM-basierte Qualitäts-Prüfung

Deduplizierung

Exact Match: Identische Sequenzen

N-gram Filter: Ähnliche Blöcke

Datensatz Level: Duplikate zwischen Quellen

Besorgnisse & Mitigationen

Bias: Stratifizierte Sampling

Urheberrecht: Berücksichtigung möglich

PII Removal: Datenschutz-Masking

Daten-Zusammensetzung

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Training-Daten Zusammensetzung

Vergleich: Daten-Mix verschiedener Modelle

GPT-4

Llama 3

Claude (Anthropic)

Mistral 7B

🔑 Schlüssel-Erkenntnisse

Web dominiert

Bücher für Qualität

Code für Capabilities

Akademische Rigor

Deduplizierung

Token vs. Datei

Daten-Qualität & Bereinigung

Selektion & Filterung

Deduplizierung

Besorgnisse & Mitigationen