KV-Cache Speicher-Wachstum

Speicher-Wachstum während Generierung

Wie der KV-Cache während Generierung wächst: Interaktive Visualisierung mit und ohne GQA

Memory Growth visualisiert das Problem, das alle Kontextfenster-Erweiterungen adressieren müssen: Jedes neue Token fügt Key- und Value-Vektoren hinzu. Bei 1M Kontext summiert sich das zu Gigabytes pro Request – der Grund für Sparse Attention, Sliding Windows und Paged Attention.

📖 Lern-Kontext ▼

Das lineare Wachstum des KV-Cache während Generierung visualisieren
Den Unterschied zwischen MHA und GQA im Speicherverbrauch sehen
Verstehen, warum lange Kontexte problematisch für Batching sind

Schritt 1/6 Optimizations & Memory

Verbindet KV-Cache-Animation und -Calculator zu einem dynamischen Bild. Zeigt, warum die folgenden Optimierungen (Position Encoding, Sliding Window, Paged Attention) notwendig wurden.

Dieses Wachstum erklärt, warum Claude 200K Kontext bietet, aber ChatGPT lange bei 8K blieb. Es ist nicht die Modellgröße, sondern der KV-Cache, der die Kontextlänge limitiert.

Lineares Wachstum: Speicher wächst proportional zur Sequenzlänge, nicht quadratisch
GQA-Effekt: Mit 8 statt 32 KV-Heads spart Llama 3 75% KV-Cache-Speicher
Batch-Problem: Bei Batch-Size 32 vervielfacht sich der Speicherbedarf um Faktor 32

Das KV-Cache Wachstums-Problem

Lineares Wachstum: Der KV-Cache wächst linear mit Anzahl generierter Tokens. Mit 128 Tokens ist bereits ein 128× größerer Cache als mit 1 Token. Dies ist das Haupt-Speicher-Bottleneck bei lange Sequenzen.

Praktisches Problem: Llama 2 70B mit MHA benötigt ~67 GB (FP16) für 128 Token Context. Das ist mehr als eine einzelne 80GB A100 GPU. Mit GQA passt es auf eine GPU (~8 GB für KV-Cache bei 128 Token).

GQA ist Game-Changer: Durch Head-Sharing können wir den KV-Cache um bis zu 8× reduzieren (8 KV-Heads statt 64). Dies ermöglicht längere Context-Fenster auf gleicher Hardware.

Spezifische Zahlen: Jeder zusätzliche Token kostet bei Llama 2 70B etwa 65 KB KV-Cache (mit GQA). Bei 100K Token Context wären das 6.5 GB nur für KV-Cache – plus andere Overheads.

Skalierung Strategies: Zur Bewältigung nutzt man: (1) GQA zur Reduktion, (2) Flash Attention für speicher-effiziente Berechnung, (3) Ring Attention zum Verteilen über GPUs, (4) KV-Quantization um Bits pro Parameter zu sparen.

Spätere Skalierungsgesetze: Länger Kontext × mehr Parameter = exponentiell mehr Speicher braucht. Dies ist einer der größten Treiber für spezialisierte Hardware und Inferenz-Frameworks (vLLM, TensorRT, etc).

Speicher-Wachstum während Generierung

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Das KV-Cache Wachstums-Problem