Warum Concatenation?
Jeder Head lernt verschiedene Aspekte (Syntax, Semantik, Position). Durch Concatenation werden alle Perspektiven kombiniert, bevor W^O eine finale Repräsentation erzeugt.
Dimensions-Erhaltung
h Heads × d_k = d_model. Beispiel: 8 Heads × 64 = 512. Die Output-Projektion W^O bringt die Dimension zurück auf d_model falls h·d_k ≠ d_model.
Output Projection
W^O ist eine trainierbare Matrix die das konkatenierte Ergebnis linear transformiert. Dies ermöglicht Interaktion zwischen den Head-Outputs.
Parallele Verarbeitung
Alle Heads können parallel berechnet werden (GPU-optimiert). Concatenation ist eine einfache Reshape-Operation ohne zusätzliche Berechnungen.