Grouped Query Attention (GQA) Head-Sharing

Grouped Query Attention (GQA)

Wie das Teilen von Key-Value Heads den Speicherbedarf des KV-Cache drastisch reduziert, ohne die Modellqualitaet wesentlich zu beeintraechtigen.

Grouped Query Attention (GQA) reduziert den KV-Cache-Speicher durch Key-Value-Sharing zwischen Query-Heads. Statt n K/V-Paare nur n/g — ein praktischer Kompromiss zwischen MHA (maximale Kapazität) und MQA (minimaler Speicher).

📖 Lern-Kontext ▼

Die Unterschiede zwischen MHA, MQA und GQA verstehen und vergleichen können
Speicher-Einsparung durch Head-Sharing berechnen können
Performance-Trade-offs bei verschiedenen Gruppierungen kennen

Schritt 2/5 Moderne Architekturvarianten

Nach MoE (Effizienz durch Expert-Selektion) betrachten wir nun GQA: eine weitere Effizienz-Optimierung, diesmal auf Attention-Ebene. GQA reduziert den KV-Cache, der bei langen Kontexten zum Bottleneck wird.

Llama 2 70B nutzt GQA mit 8 KV-Heads für 32 Query-Heads — ~75% KV-Cache Einsparung. Bei 128K Kontext wäre der Cache sonst 64+ GB. GQA ist heute Standard in Llama, Mistral, Gemma und praktisch allen modernen LLMs.

g Query-Heads teilen sich ein K/V-Paar (g = Gruppengröße)
g=1 → MQA (alle teilen), g=h → MHA (keine Teilung), dazwischen → GQA
Llama 2/3, Mistral, Gemma nutzen GQA mit 4-8× Reduktion

Interaktiver Attention-Typ Vergleich

Head-Zuordnung: Query zu Key/Value

Query Heads

Volle Kapazitaet

KV Heads
8
Gleich wie Query
0% gespart

KV-Cache Groesse

12.8

Llama 2 70B @ 4K Kontext

Query Heads (Q)

Key Heads (K)

Value Heads (V)

Modell-Konfiguration

Query Heads 8

Sequenzlaenge 4,096

Layers 80

Multi-Head Attention (MHA)

Bei MHA hat jeder Query-Head sein eigenes Key-Value Paar. Das bedeutet maximale Ausdruckskraft, aber auch maximalen Speicherbedarf für den KV-Cache während der Inferenz.

Fig. 1 | Vergleich der Attention-Varianten. MHA: Jeder Query-Head (blau) hat dedizierte Key-Value Heads (orange/grün). GQA: Mehrere Query-Heads teilen sich ein KV-Paar. MQA: Alle Query-Heads teilen ein einziges KV-Paar.

🔎 Warum KV-Cache ein Problem ist

Während der autoregressiven Generierung müssen die Key- und Value-Vektoren aller vorherigen Tokens im Speicher gehalten werden. Bei langen Kontexten wächst dieser Cache enorm.

Cache = 2 × n_kv × L × S × d_head × precision

Für Llama 2 70B mit 128K Kontext: 64+ GB nur für den KV-Cache!

⚒ Der GQA Kompromiss

GQA gruppiert Query-Heads und lässt sie Key-Value Heads teilen. Llama 2 70B nutzt 64 Query-Heads mit nur 8 KV-Heads.

Ergebnis: 8× weniger KV-Cache Speicher bei nahezu unverändeter Modellqualität. Ein idealer Trade-off zwischen MHA und MQA.

📈 Modelle im Vergleich

Modell	Q Heads	KV Heads	Typ
GPT-3 175B	96	96	MHA
Llama 2 70B	64	8	GQA
Llama 3 70B	64	8	GQA
Mistral 7B	32	8	GQA
Falcon 180B	232	1	MQA

Grouped Query Attention (GQA)

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways