LLM Explorer – Head Concatenation

Head Concatenation Animation

Wie die Outputs mehrerer Attention-Heads zusammengefügt und durch Output-Projektion W^O transformiert werden.

Head Concatenation ist der finale Schritt von Multi-Head Attention: Die parallelen Perspektiven mehrerer Heads werden zu einem einzigen Vektor kombiniert. Dieser Mechanismus ermöglicht es dem Modell, syntaktische, semantische und positionale Informationen gleichzeitig zu nutzen.

📖 Lern-Kontext ▼

Verstehen, wie parallele Head-Outputs zu einem Vektor kombiniert werden
Die Rolle der Output-Projektion W^O bei der Informationsintegration kennen
Dimensions-Erhaltung verstehen: h × d_k = d_model

Schritt 5/8 Transformer Grundlagen

Nach der parallelen Berechnung aller Attention-Heads werden deren Outputs hier zusammengeführt. Die W^O-Matrix ermöglicht eine finale Interaktion zwischen den Perspektiven, bevor das Ergebnis an das Feedforward-Netzwerk weitergegeben wird.

Ohne Concatenation würden die Head-Outputs isoliert bleiben. Die W^O-Matrix ist trainierbar und lernt, welche Head-Kombinationen für verschiedene Aufgaben optimal sind. Bei 32-128 Heads in modernen Modellen ist diese Integration entscheidend für die Gesamtperformance.

Concatenation = Simple Reshape ohne Berechnungen (GPU-effizient)
W^O ∈ ℝ^{(d_model × d_model)} ermöglicht Head-Interaktion
Jeder Head spezialisiert sich auf andere Muster (Syntax, Semantik, Position)

Multi-Head Attention Formel:

head_i = Attention(QW^Q_i, KW^K_i, VW^V_i)
MultiHead(Q, K, V) = Concat(head₁, ..., head_h)W^O

Dimensionen:
head_i ∈ ℝ^(n×d_k) für jeden Head
Concat(...) ∈ ℝ^(n×h·d_k) = ℝ^(n×d_model)
W^O ∈ ℝ^{(d_model×d_model)}
Output ∈ ℝ^(n×d_model)

Warum Concatenation?

Jeder Head lernt verschiedene Aspekte (Syntax, Semantik, Position). Durch Concatenation werden alle Perspektiven kombiniert, bevor W^O eine finale Repräsentation erzeugt.

Dimensions-Erhaltung

h Heads × d_k = d_model. Beispiel: 8 Heads × 64 = 512. Die Output-Projektion W^O bringt die Dimension zurück auf d_model falls h·d_k ≠ d_model.

Output Projection

W^O ist eine trainierbare Matrix die das konkatenierte Ergebnis linear transformiert. Dies ermöglicht Interaktion zwischen den Head-Outputs.

Parallele Verarbeitung

Alle Heads können parallel berechnet werden (GPU-optimiert). Concatenation ist eine einfache Reshape-Operation ohne zusätzliche Berechnungen.

Head Concatenation Animation

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways