4 Heads
64
Schritt 1: Individuelle Head Outputs
Jeder der h Heads hat seine eigene Attention-Operation durchgeführt und produziert einen Vektor der Dimension d_k.
Multi-Head Attention Formel:

head_i = Attention(QW^Q_i, KW^K_i, VW^V_i)
MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O

Dimensionen:
head_i ∈ ℝ^(n×d_k) für jeden Head
Concat(...) ∈ ℝ^(n×h·d_k) = ℝ^(n×d_model)
W^O ∈ ℝ^(d_model×d_model)
Output ∈ ℝ^(n×d_model)
Warum Concatenation?
Jeder Head lernt verschiedene Aspekte (Syntax, Semantik, Position). Durch Concatenation werden alle Perspektiven kombiniert, bevor W^O eine finale Repräsentation erzeugt.
Dimensions-Erhaltung
h Heads × d_k = d_model. Beispiel: 8 Heads × 64 = 512. Die Output-Projektion W^O bringt die Dimension zurück auf d_model falls h·d_k ≠ d_model.
Output Projection
W^O ist eine trainierbare Matrix die das konkatenierte Ergebnis linear transformiert. Dies ermöglicht Interaktion zwischen den Head-Outputs.
Parallele Verarbeitung
Alle Heads können parallel berechnet werden (GPU-optimiert). Concatenation ist eine einfache Reshape-Operation ohne zusätzliche Berechnungen.