Sampling Settings Guide

Wähle ideale Temperature, Top-K, und Top-P Einstellungen basierend auf deiner Task – von faktisch exakt bis kreativ und offen

Sampling-Einstellungen bestimmen, wie kreativ oder deterministisch ein LLM antwortet. Temperature, Top-K und Top-P sind die wichtigsten Regler – und ihre optimale Kombination hängt stark vom Anwendungsfall ab.

📖 Lern-Kontext ▼

Die Auswirkung von Temperature verstehen
Top-K vs. Top-P Unterschiede kennen
Task-spezifische Einstellungen wählen können

Schritt 3/4 Training & Inference

Nach Training (1/4) und RLHF (2/4) kommen wir zu Sampling (3/4) – wie das Modell bei der Generierung auswählt.

Falsche Sampling-Einstellungen ruinieren selbst das beste Modell. Zu hohe Temperature für Fakten = Halluzinationen. Zu niedrig für Kreativität = langweilig. Die richtige Balance ist kritisch.

Fakten: Niedrige Temperature (0-0.3), hohes Top-K
Kreativ: Höhere Temperature (0.7-1.0), Top-P ~0.9
Balanced: Temperature ~0.5, Top-P ~0.95

📋 Aktuelle Empfehlung

Für QA & Facts:
Nutze Temperature 0.1-0.3 (konzentriert auf Top-Logits), Top-K=0 (deaktiviert), Top-P=0.9 (optional, meist unnötig bei niedriger Temp). Ergebnis: Genaue, konsistente Antworten. Ideal für Knowledge-intensive Tasks.

Task-Typ	Temperature	Top-K	Top-P	Use Case	Output-Stil
QA & Facts	0.1-0.3	0	0.9	News, Wikipedia-Style Antworten	Präzise, Deterministisch
General Chat	0.7-0.9	50	0.95	Normale Konversation, Balanced	Natural, Varied
Creative Writing	1.2-1.5	100	0.98	Storytelling, Brainstorming	Kreativ, Überraschend
Coding	0.2-0.5	20	0.95	Code Generation, Debugging	Korrekt, Syntaktisch
Summarization	0.3-0.6	0	0.9	Text-Zusammenfassung	Konzis, Fokussiert

Task-Typ

Temperature

Top-K

Top-P

Use Case

Output-Stil

QA & Facts

0.1-0.3

0.9

News, Wikipedia-Style Antworten

Präzise, Deterministisch

General Chat

0.7-0.9

0.95

Normale Konversation, Balanced

Natural, Varied

Creative Writing

1.2-1.5

100

0.98

Storytelling, Brainstorming

Kreativ, Überraschend

Coding

0.2-0.5

0.95

Code Generation, Debugging

Korrekt, Syntaktisch

Summarization

0.3-0.6

0.9

Text-Zusammenfassung

Konzis, Fokussiert

🌡️

Temperature skaliert Logits

P(x_i) = exp(z_i/T) / Σ. T→0: konvergiert zu argmax (Greed). T>1: flacht ab (mehr Randomness). Top Choice: T=0.7 für Balance.

🔪

Top-K ist einfach aber hart

Behält nur k wahrscheinlichste Tokens. Problem: k=50 kann gut sein (viel Auswahl) oder schlecht (zu viel Noise). Adaptive Alternative: Top-P.

📊

Top-P (Nucleus) ist adaptiv

Behält Tokens bis kumulative Wahrscheinlichkeit ≥ P. Bei hoher Konfidenz: kleiner Nucleus (1-2 Token). Bei Unsicherheit: größer (10+ Token). Meist besser als Top-K.

⚖️

Kombination ist wichtig

Nutze selten Top-K und Top-P zusammen (redundant). Standard: Temperature + (Top-P OR Top-K). Top-P ist moderne Empfehlung.

🎯

Niedriges T braucht kein Top-K

Bei T=0.3 ist Softmax konzentriert, Top-K/Top-P meist unnötig. Bei T=1.0+ braucht Top-P um Noise zu filtern.

🧪

Keine universellen Werte

Modelle haben verschiedene Baseline-Logits. GPT-4: T=0.5. Llama: T=0.8. Teste deine Kombination mit echten Prompts.

Sampling Settings Guide

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways