Speculative Decoding

Fig. 1 | Speculative Decoding Animation. Oben: Draft-Modell generiert schnell 4 Tokens. Unten: Target-Modell verifiziert parallel alle 4. Nach Verification: Accept/Reject pro Token (Grün=Accept, Rot=Reject).

Vergleich: Standard vs Speculative

Standard Decoding

Forward Pass 1 Token 1

Forward Pass 2 Token 2

Forward Pass 3 Token 3

Forward Pass 4 Token 4

Total 4 Forward Passes

Speculative Decoding

Draft (schnell) 4 Tokens

Target (parallel) 4 Tokens

Accept 3 Tokens ✓

Reject & Retry 1 Token

Total 2× schneller!

Schlüssel-Erkenntnisse

1

Draft + Target Paradigma: Ein kleines Modell (Draft, z.B. 7B) generiert schnell. Ein großes Modell (Target, z.B. 70B) verifiziert. Dies ist asymmetrisch: Draft ist billig, Target ist teuer. Die Asymmetrie ist der Trick.

2

Parallel Verification: Der Schlüssel ist, dass Target alle Draft-Kandidaten gleichzeitig verifiziert (eine single Forward Pass mit längerer Sequenz). Dies ist viel schneller als sequentielles Sampling.

3

Acceptance Rate entscheidend: Wenn Draft zu ähnlich Target ist, werden viele Tokens akzeptiert (~80-90%), und Speedup ist ~2-3×. Wenn Draft schlecht ist, viele Rejections, und Speedup sinkt zu ~1.2×.

4

Praktische Einschränkungen: Der Draft-Modell muss sehr ähnlich zum Target sein (sonst zu viele Rejections). Dies bedeutet: Draft ist oft ein kleinerer Checkpoint des gleichen Modells, nicht ein völlig unterschiedliches Modell.

5

Latenz vs Throughput: Speculative Decoding reduziert Latenz (wichtig für Interactive Use). Es reduziert aber nicht FLOPS-Requirement. Ideal für: Chat-APIs, Real-Time-Anwendungen. Schlecht für: Batch-Inference, Maximum-Throughput-Szenarien.

6

Allokation Entscheidung: In einer Welt mit begrenztem GPU-Budget: Speculative Decoding ist ein Engineering Trade-off zwischen Latenz-Improvement und Modell-Komplexität. Nur sinnvoll wenn Latenz kritisch ist.

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Vergleich: Standard vs Speculative

Schlüssel-Erkenntnisse