Multi-Head Attention Vergleich

8 parallele Attention-Köpfe lernen verschiedene Aspekte der Sprache – von syntaktischen Strukturen bis zu semantischen Beziehungen.

Multi-Head Attention erweitert Self-Attention um parallele Perspektiven. Statt eines einzelnen Attention-Mechanismus arbeiten mehrere Heads gleichzeitig, wobei jeder Head auf andere Muster spezialisiert sein kann: Syntax, Semantik, Koreferenzen.

📖 Lern-Kontext ▼

Verstehen, warum mehrere Attention-Heads besser sind als einer
Erkennen, wie verschiedene Heads sich auf unterschiedliche Muster spezialisieren
Nachvollziehen, wie die Head-Outputs konkateniert und projiziert werden

Schritt 5/8 Transformer Grundlagen

Aufbauend auf der Q·K^T Berechnung (Schritt 4) werden hier mehrere Attention-Mechanismen parallel ausgeführt. Die Ergebnisse fließen dann in die Feedforward-Schicht (Schritt 6), die das Wissen des Modells speichert.

Ein einzelner Attention-Head kann nur eine Art von Beziehung erfassen. Multi-Head Attention ermöglicht es dem Modell, gleichzeitig syntaktische Strukturen, semantische Ähnlichkeiten und Koreferenzen zu lernen. Moderne Modelle verwenden 32-128 Heads (GPT-4: 128, Llama 3 70B: 64 Query-Heads mit 8 KV-Heads durch Grouped Query Attention).

Heads spezialisieren sich emergent auf verschiedene linguistische Muster
Parallele Berechnung ist effizient auf modernen GPUs (Batched MatMul)
Output: Alle Heads werden konkateniert und linear projiziert (W^O)

Head 1 – Positionsbasiert

0.0 0.5 1.0

Beschreibung

Dieser Head fokussiert auf...

Statistiken

0.00

Entropie

Sparsity

0.00

Max Attention

0.00

Avg Attention

Typische Funktion

In trainierten Modellen...

Multi-Head Attention: Concat(head₁, ..., head₈) × W^O

→

8 × 64 = 512 dim

W^O

512×512

→

Output

512 dim

💡 Warum mehrere Heads?

Ein einzelner Attention-Mechanismus müsste alle Aspekte der Sprache gleichzeitig erfassen. Multi-Head Attention löst dieses Problem durch Parallelisierung: Jeder Head kann sich auf unterschiedliche Beziehungen spezialisieren – syntaktische Strukturen (Subjekt-Verb), semantische Ähnlichkeiten, Koreferenzen (wer ist "er"?), oder einfach benachbarte Tokens. Die Outputs werden konkateniert und durch W^O projiziert, sodass das Modell alle Perspektiven kombinieren kann.

Multi-Head Attention Vergleich

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways