Drei Ansätze zur Verbesserung von Modell-Performance durch zusätzliche Rechenzeit während der Inferenz: Parallel, Sequential, und Internal (o1/o3-style)
Test-Time Strategien: Drei Wege, mehr Compute zu investieren — Parallel (Best-of-N), Sequential (Refinement), Internal (Hidden CoT). Jede Strategie hat unterschiedliche Stärken je nach Task.
Praktische Strategien für Test-Time Compute — vom Konzept zur Implementierung.
Best-of-N ist einfach zu implementieren, Internal (o1-style) ist am effizientesten. Die Wahl der Strategie kann 2-3× Kostenunterschied bedeuten bei gleicher Qualität.
| Kriterium | Parallel (Best-of-N) | Sequential (Iterative) | Internal (o1/o3) |
|---|---|---|---|
| Latency (ms) | 200-500 | 800-1500 | 2000-5000 |
| Throughput (req/s) | 2-5 | 0.7-1.5 | 0.2-0.5 |
| Accuracy (Math) | 65-75% | 78-88% | 85-94% |
| Memory Required | N × Base Model High | 1.2 × Base Model Moderate | 1.1 × Base Model Low |
| Implementation | Simple | Moderate | Complex |
| Optimal For | Ensemble + Voting | Step-by-Step Refinement | Complex Reasoning |
| Beispiel-Modelle | Llama 2, Mistral, Claude | Llama 3.1, GPT-4 | o1, o3, DeepSeek R1 |
| Parallelisierbar? | Ja, vollständig | Teilweise (Steps) | Ja (Ensemble) |
| Cost-Effizienz | Gut für Latency-SLA | Gut für Balance | Best für Quality |
| Fallback bei Fehler | Andere Outputs | Restarting mit anderen Prompts | Intrinsische Self-Correction |