Beispielsatz
Head 1 – Positionsbasiert
0.0 0.5 1.0
Beschreibung
Dieser Head fokussiert auf...
Statistiken
0.00
Entropie
0%
Sparsity
0.00
Max Attention
0.00
Avg Attention
Typische Funktion
In trainierten Modellen...
Multi-Head Attention: Concat(head₁, ..., head₈) × WO
H1
H2
H3
H4
H5
H6
H7
H8
8 × 64 = 512 dim
×
WO
512×512
Output
512 dim
💡 Warum mehrere Heads?

Ein einzelner Attention-Mechanismus müsste alle Aspekte der Sprache gleichzeitig erfassen. Multi-Head Attention löst dieses Problem durch Parallelisierung: Jeder Head kann sich auf unterschiedliche Beziehungen spezialisieren – syntaktische Strukturen (Subjekt-Verb), semantische Ähnlichkeiten, Koreferenzen (wer ist "er"?), oder einfach benachbarte Tokens. Die Outputs werden konkateniert und durch WO projiziert, sodass das Modell alle Perspektiven kombinieren kann.