Schritt für Schritt: Wie Query- und Key-Vektoren zu Attention-Scores werden. Jedes Skalarprodukt misst die "Kompatibilität" zwischen zwei Tokens.
Jede Zelle in der Attention-Score-Matrix ist das Skalarprodukt
einer Query-Zeile mit einer Key-Spalte. Der Wert Score[i,j] misst,
wie stark Token i auf Token j "achten" sollte. Hohe Werte bedeuten hohe Relevanz.
Nach dem Softmax werden diese Scores zu Gewichten normalisiert, die bestimmen,
wie viel Information von jedem Token fließt.