Wie die Outputs mehrerer Attention-Heads zusammengefügt und durch Output-Projektion WO transformiert werden.
Head Concatenation ist der finale Schritt von Multi-Head Attention: Die parallelen Perspektiven mehrerer Heads werden zu einem einzigen Vektor kombiniert. Dieser Mechanismus ermöglicht es dem Modell, syntaktische, semantische und positionale Informationen gleichzeitig zu nutzen.
Nach der parallelen Berechnung aller Attention-Heads werden deren Outputs hier zusammengeführt. Die WO-Matrix ermöglicht eine finale Interaktion zwischen den Perspektiven, bevor das Ergebnis an das Feedforward-Netzwerk weitergegeben wird.
Ohne Concatenation würden die Head-Outputs isoliert bleiben. Die WO-Matrix ist trainierbar und lernt, welche Head-Kombinationen für verschiedene Aufgaben optimal sind. Bei 32-128 Heads in modernen Modellen ist diese Integration entscheidend für die Gesamtperformance.