Q·K^T Matrix-Multiplikation

Schritt für Schritt: Wie Query- und Key-Vektoren zu Attention-Scores werden. Jedes Skalarprodukt misst die "Kompatibilität" zwischen zwei Tokens.

Self-Attention ist das mathematische Herzstück des Transformers. Die Q·K^T Multiplikation berechnet für jedes Token-Paar einen Score, der bestimmt, wie stark die Tokens aufeinander "achten" sollen.

📖 Lern-Kontext ▼

Verstehen, welche Rolle Query-, Key- und Value-Vektoren spielen
Die Berechnung des Skalarprodukts Q·K^T nachvollziehen
Erkennen, warum die Skalierung durch √d_k notwendig ist

Schritt 4/8 Transformer Grundlagen

Nach Tokenisierung (1), Embedding (2) und Position Encoding (3) haben wir Vektoren, die sowohl Bedeutung als auch Position kodieren. Jetzt berechnet Self-Attention, welche Tokens miteinander interagieren sollen. Diese Scores werden dann zu Multi-Head Attention (Schritt 5) erweitert.

Das Skalarprodukt Q·K^T erzeugt eine n×n Attention-Matrix – die Quelle der quadratischen O(n²) Komplexität. Diese Komplexität ermöglicht es jedoch, beliebig weit entfernte Tokens direkt miteinander zu verbinden, was RNNs nicht können. Die Skalierung durch √d_k verhindert, dass große Dimensionen den Softmax sättigen und die Gradienten verschwinden.

Query fragt "Was suche ich?", Key antwortet "Was biete ich an?"
Das Skalarprodukt misst die Kompatibilität zwischen Token-Paaren
Skalierung durch √d_k (z.B. √64 = 8) stabilisiert das Training

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

Die Skalierung durch √d_k verhindert, dass große Werte den Softmax sättigen.

💡 Was passiert hier?

Jede Zelle in der Attention-Score-Matrix ist das Skalarprodukt einer Query-Zeile mit einer Key-Spalte. Der Wert Score[i,j] misst, wie stark Token i auf Token j "achten" sollte. Hohe Werte bedeuten hohe Relevanz. Nach dem Softmax werden diese Scores zu Gewichten normalisiert, die bestimmen, wie viel Information von jedem Token fließt.

Q·K^T Matrix-Multiplikation

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Verwandte Visualisierungen