KAPITEL 3.4c · REASONING & TEST-TIME COMPUTE

Test-Time Scaling Strategien

Drei Ansätze zur Verbesserung von Modell-Performance durch zusätzliche Rechenzeit während der Inferenz: Parallel, Sequential, und Internal (o1/o3-style)

Test-Time Strategien: Drei Wege, mehr Compute zu investieren — Parallel (Best-of-N), Sequential (Refinement), Internal (Hidden CoT). Jede Strategie hat unterschiedliche Stärken je nach Task.

📖 Lern-Kontext ▼

Parallel vs. Sequential vs. Internal unterscheiden
Best-of-N Sampling verstehen
Wann welche Strategie optimal ist

Schritt 3/5 Reasoning & Test-Time Compute

Praktische Strategien für Test-Time Compute — vom Konzept zur Implementierung.

Best-of-N ist einfach zu implementieren, Internal (o1-style) ist am effizientesten. Die Wahl der Strategie kann 2-3× Kostenunterschied bedeuten bei gleicher Qualität.

Parallel: N Antworten generieren, beste wählen
Sequential: Iteratives Verfeinern einer Antwort
Internal: Thinking Tokens, effizienteste Methode

Genauigkeit nach Test-Time Compute Strategie

Parallel (Best-of-N, Majority Vote)

Sequential (Iterative Refinement)

Internal (o1/o3 Hidden Thinking)

Fig. 1 | Accuracy-Vergleich der drei Test-Time Scaling Strategien über mathematische Benchmark (AIME 2024). Internal (o3) zeigt beste Performance, aber auch höchste Latenz. Parallel ist schneller, Sequential bietet Balance.

Latency vs. Quality Trade-off

Parallel: Schnell, gute Quality

Sequential: Mittel, sehr gute Quality

Internal: Langsam, beste Quality

Fig. 2 | Latenz vs. Accuracy-Pareto-Frontier. Internal dominiert Quality, opfert aber Latenz. Parallel maximiert Durchsatz. Sequential equilibriert.

Kriterium	Parallel (Best-of-N)	Sequential (Iterative)	Internal (o1/o3)
Latency (ms)	200-500	800-1500	2000-5000
Throughput (req/s)	2-5	0.7-1.5	0.2-0.5
Accuracy (Math)	65-75%	78-88%	85-94%
Memory Required	N × Base Model High	1.2 × Base Model Moderate	1.1 × Base Model Low
Implementation	Simple	Moderate	Complex
Optimal For	Ensemble + Voting	Step-by-Step Refinement	Complex Reasoning
Beispiel-Modelle	Llama 2, Mistral, Claude	Llama 3.1, GPT-4	o1, o3, DeepSeek R1
Parallelisierbar?	Ja, vollständig	Teilweise (Steps)	Ja (Ensemble)
Cost-Effizienz	Gut für Latency-SLA	Gut für Balance	Best für Quality
Fallback bei Fehler	Andere Outputs	Restarting mit anderen Prompts	Intrinsische Self-Correction

Die 3 Strategien im Detail

🔀 Parallel: Best-of-N & Majority Voting

Generiere N unabhängige Outputs gleichzeitig. Beste Methode: Top-1 (höchste Log-Likelihood), Second: Majority Voting (wenn mehrere Outputs ähnlich).

Formel: y* = argmax P(y | x) über N Samples
Vorteil: Perfekt parallelisierbar (N GPUs), einfach zu implementieren, schnell.
Nachteil: Braucht N × Memory, keine intrinsische Selbstkorrektur.
Wann nutzen: Große Batches, verfügbare GPU-Ressourcen, Latency-sensibel.

🔄 Sequential: Iterative Refinement & CoT

Generiere Output iterativ. Erster Pass: Chain-of-Thought. Zweiter Pass: Self-Critique (feedback on reasoning). Dritter Pass: Final Answer.

Formel: y1 → critique(y1) → y2 → ... → y_final
Vorteil: Bessere Reasoning-Quality, weniger Memory als Parallel, Fehler werden oft selbst korrigiert.
Nachteil: Langsamer (iterative), braucht mehrere Forward-Passes sequenziell.
Wann nutzen: Medium-complexity Tasks, Balance zwischen Speed und Quality erwünscht.

🧠 Internal: o1/o3 Hidden Thinking

Modell hat internale "Thinking Tokens" (verborgen von Nutzer), die vor dem finalen Output generiert werden. Trained mit RL auf verifizierbare Rewards.

Formel: hidden_thoughts = model(x, internal=True); y = model(x, hidden_thoughts)
Vorteil: Beste Quality, intrinsische Self-Correction, Nutzer sieht keine Fehlversuche.
Nachteil: Proprietär (o3), teuer, benötigt spezialisierte Training mit RL.
Wann nutzen: Sehr komplexe Aufgaben (Mathe, Code), Quality > Speed-Anforderungen.

⚡

Test-Time Compute = 14× Model-Parameter

Snell et al. (2024): Optimale Allokation von Test-Time Compute kann einen 14× Größer-Modell-Vorteil kompensieren. Mehr Denkzeit schlägt größeres Modell.

📊

Parallel ist schnell, Sequential ist smarter

Parallel-Strategie: 200-500ms Latency aber braucht N GPUs. Sequential: 800-1500ms aber nur 1.2× Memory. Wahl hängt von Infrastruktur ab.

🎯

Internal (o1/o3) dominiert Quality

o3 erreicht 88.9% auf AIME 2025 (vs. o1: 92.3%, vs. Standard: <5%). Aber 2-5s Latency macht es für viele Anwendungen unpraktisch.

🔄

Self-Critique funktioniert empirisch

Sequential mit Self-Critique erreicht 80-88% Accuracy. Das Modell kann seine eigenen Fehler oft erkennen und korrigieren (wenn große genug).

💡

Majority Voting braucht ~5-10 Samples

Bei N=5: ~10% Accuracy-Boost. Bei N=10: ~13% Boost. Plateau nach ~15 Samples (Stochastizität limitiert). CoV (Coefficient of Variation) zwischen Outputs zeigt Unsicherheit.

⚙️

RL-Training macht Internal möglich

GRPO Algorithm: RL trainiert das Modell, selbst zu entscheiden wie viel zu "denken". DeepSeek R1-Zero ohne SFT: nur Rule-based Rewards + RL = komplexes Reasoning emergent.

Test-Time Scaling Strategien

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Die 3 Strategien im Detail