Wie ein kleines Draft-Modell schnell Kandidaten generiert und ein großes Target-Modell diese parallel verifiziert – für 2-3× Speedup
Abschluss der Inferenz-Optimierung (4/4) – eine elegante Methode für schnellere Generierung.
Speculative Decoding liefert Speedup ohne Qualitätseinbußen – ein seltener Free Lunch in ML. Es wird von GPT-4, Claude und anderen produktiven APIs genutzt.