8 parallele Attention-Köpfe lernen verschiedene Aspekte der Sprache – von syntaktischen Strukturen bis zu semantischen Beziehungen.
Ein einzelner Attention-Mechanismus müsste alle Aspekte der Sprache gleichzeitig
erfassen. Multi-Head Attention löst dieses Problem durch Parallelisierung:
Jeder Head kann sich auf unterschiedliche Beziehungen spezialisieren –
syntaktische Strukturen (Subjekt-Verb), semantische Ähnlichkeiten, Koreferenzen
(wer ist "er"?), oder einfach benachbarte Tokens. Die Outputs werden konkateniert
und durch WO projiziert, sodass das Modell alle
Perspektiven kombinieren kann.