Wie der KV-Cache während Generierung wächst: Interaktive Visualisierung mit und ohne GQA
Memory Growth visualisiert das Problem, das alle Kontextfenster-Erweiterungen adressieren müssen: Jedes neue Token fügt Key- und Value-Vektoren hinzu. Bei 1M Kontext summiert sich das zu Gigabytes pro Request – der Grund für Sparse Attention, Sliding Windows und Paged Attention.
Verbindet KV-Cache-Animation und -Calculator zu einem dynamischen Bild. Zeigt, warum die folgenden Optimierungen (Position Encoding, Sliding Window, Paged Attention) notwendig wurden.
Dieses Wachstum erklärt, warum Claude 200K Kontext bietet, aber ChatGPT lange bei 8K blieb. Es ist nicht die Modellgröße, sondern der KV-Cache, der die Kontextlänge limitiert.