4 Heads
64
Schritt 1: Individuelle Head Outputs
Jeder der h Heads hat seine eigene Attention-Operation durchgeführt und produziert einen Vektor der Dimension dk.
Multi-Head Attention Formel:

headi = Attention(QWQi, KWKi, VWVi)
MultiHead(Q, K, V) = Concat(head1, ..., headh)WO

Dimensionen:
headi ∈ ℝ(n×dk) für jeden Head
Concat(...) ∈ ℝ(n×h·dk) = ℝ(n×dmodel)
WO ∈ ℝ(dmodel×dmodel)
Output ∈ ℝ(n×dmodel)
Warum Concatenation?
Jeder Head lernt verschiedene Aspekte (Syntax, Semantik, Position). Durch Concatenation werden alle Perspektiven kombiniert, bevor WO eine finale Repräsentation erzeugt.
Dimensions-Erhaltung
h Heads × dk = dmodel. Beispiel: 8 Heads × 64 = 512. Die Output-Projektion WO bringt die Dimension zurück auf dmodel falls h·dk ≠ dmodel.
Output Projection
WO ist eine trainierbare Matrix die das konkatenierte Ergebnis linear transformiert. Dies ermöglicht Interaktion zwischen den Head-Outputs.
Parallele Verarbeitung
Alle Heads können parallel berechnet werden (GPU-optimiert). Concatenation ist eine einfache Reshape-Operation ohne zusätzliche Berechnungen.