Schritt für Schritt: Wie Query- und Key-Vektoren zu Attention-Scores werden. Jedes Skalarprodukt misst die "Kompatibilität" zwischen zwei Tokens.
Self-Attention ist das mathematische Herzstück des Transformers. Die Q·KT Multiplikation berechnet für jedes Token-Paar einen Score, der bestimmt, wie stark die Tokens aufeinander "achten" sollen.
Nach Tokenisierung (1), Embedding (2) und Position Encoding (3) haben wir Vektoren, die sowohl Bedeutung als auch Position kodieren. Jetzt berechnet Self-Attention, welche Tokens miteinander interagieren sollen. Diese Scores werden dann zu Multi-Head Attention (Schritt 5) erweitert.
Das Skalarprodukt Q·KT erzeugt eine n×n Attention-Matrix – die Quelle der quadratischen O(n²) Komplexität. Diese Komplexität ermöglicht es jedoch, beliebig weit entfernte Tokens direkt miteinander zu verbinden, was RNNs nicht können. Die Skalierung durch √dk verhindert, dass große Dimensionen den Softmax sättigen und die Gradienten verschwinden.
Jede Zelle in der Attention-Score-Matrix ist das Skalarprodukt
einer Query-Zeile mit einer Key-Spalte. Der Wert Score[i,j] misst,
wie stark Token i auf Token j "achten" sollte. Hohe Werte bedeuten hohe Relevanz.
Nach dem Softmax werden diese Scores zu Gewichten normalisiert, die bestimmen,
wie viel Information von jedem Token fließt.