Sequenzlänge: dk:
Tempo:
Schritt 0 / 16 0%
Bereit
Klicken Sie "Nächster Schritt" oder "Abspielen" um die Berechnung zu starten.
Query Matrix
Q (Query)
n × dk
×
Key Matrix (Transposed)
KT (Key transponiert)
dk × n
=
Attention Scores
n × n
Aktuelle Berechnung
Wählen Sie einen Schritt, um die Berechnung zu sehen.
Attention(Q, K, V) = softmax(QKT / √dk) · V
Die Skalierung durch √dk verhindert, dass große Werte den Softmax sättigen.
💡 Was passiert hier?

Jede Zelle in der Attention-Score-Matrix ist das Skalarprodukt einer Query-Zeile mit einer Key-Spalte. Der Wert Score[i,j] misst, wie stark Token i auf Token j "achten" sollte. Hohe Werte bedeuten hohe Relevanz. Nach dem Softmax werden diese Scores zu Gewichten normalisiert, die bestimmen, wie viel Information von jedem Token fließt.