8 parallele Attention-Köpfe lernen verschiedene Aspekte der Sprache – von syntaktischen Strukturen bis zu semantischen Beziehungen.
Multi-Head Attention erweitert Self-Attention um parallele Perspektiven. Statt eines einzelnen Attention-Mechanismus arbeiten mehrere Heads gleichzeitig, wobei jeder Head auf andere Muster spezialisiert sein kann: Syntax, Semantik, Koreferenzen.
Aufbauend auf der Q·KT Berechnung (Schritt 4) werden hier mehrere Attention-Mechanismen parallel ausgeführt. Die Ergebnisse fließen dann in die Feedforward-Schicht (Schritt 6), die das Wissen des Modells speichert.
Ein einzelner Attention-Head kann nur eine Art von Beziehung erfassen. Multi-Head Attention ermöglicht es dem Modell, gleichzeitig syntaktische Strukturen, semantische Ähnlichkeiten und Koreferenzen zu lernen. Moderne Modelle verwenden 32-128 Heads (GPT-4: 128, Llama 3 70B: 64 Query-Heads mit 8 KV-Heads durch Grouped Query Attention).
Ein einzelner Attention-Mechanismus müsste alle Aspekte der Sprache gleichzeitig
erfassen. Multi-Head Attention löst dieses Problem durch Parallelisierung:
Jeder Head kann sich auf unterschiedliche Beziehungen spezialisieren –
syntaktische Strukturen (Subjekt-Verb), semantische Ähnlichkeiten, Koreferenzen
(wer ist "er"?), oder einfach benachbarte Tokens. Die Outputs werden konkateniert
und durch WO projiziert, sodass das Modell alle
Perspektiven kombinieren kann.