Erkunde wie Queries auf Dokumente attenden: Wähle Query-Position und Dokument-Fenster, und sehe die Umverteilung der Attention-Gewichte in Echtzeit
⚙️ Interaktive Steuerung
Position: 4 (Wort: "Model")
τ = 1.0
8 Positionen
Dokument:
[0] Die Die | [1] moderne | [2] künstliche | [3] Intelligenz | [4] Model | [5] braucht | [6] viele | [7] Parameter
Attention Heatmap (Position × Document)
Hohe Attention (1.0)
Mittlere Attention (0.5)
Niedrig (0.0)
Entropy
0.00
Max Attention
0.00
Fokus Width
0.00
Head-Typ
Syntax
Fig. 1 |
Interaktive Attention-Heatmap: X-Achse = Dokument-Positionen, Y-Achse = Query-Position.
Helles Lila = Hohe Attention-Gewichte (das Modell achtet darauf).
Dunkel = Niedrig (ignoriert). Temperature kontrolliert Sharpness der Verteilung.
Verschiedene Heads spezialisieren sich: Head 0 achtet auf Syntax, Head 1 auf Semantik.
🎯
Attention als Fokus-Mechanismus
Helle Farben zeigen, worauf das Modell "achtet". Query-Position 4 ("Model") kann sich verschiedene Tokens ansehen.
Verteilung zeigt: Wichtige Kontexte bekommen hohe Gewichte.
🌡️
Temperature reguliert Sharpness
τ = 0.1 → Sehr scharf (fast nur ein Token). τ = 1.0 → Ausgewogen. τ = 2.0 → Diffus (viele Tokens gleichmäßig).
Höhere Temperatur = größeres Fenster für "Kontext-Verständnis".
🧠
Multi-Head Spezialisierung
Head 0 (Syntax): Achtet auf grammatikalische Struktur (oft nächste Wörter).
Head 1 (Semantik): Achtet auf inhaltlich verwandte Wörter (können weit weg sein).
Heads zusammen = Vollständiges Verständnis.
📊
Entropy misst Unsicherheit
Hohe Entropy = Viele Möglichkeiten (Modell ist unsicher).
Niedrige Entropy = Klarer Fokus (Modell hat Vertrauen).
Gute Modelle: Hohe Entropy wenn mehrdeutig, niedrig bei klaren Fällen.
Auto-Regressive Modelle: Können nur rückwärts schauen (Causal Mask).
Query bei Position 4 sieht nur [0,1,2,3,4]. Nicht [5,6,7].
Dieser Mechanismus verhindert, dass Modell die Zukunft "schummelt".
Alle Gewichte zusammen summieren sich zu 1.0 (Wahrscheinlichkeitsverteilung).
Toggle Normalisierung an/aus, um Unterschied zu sehen. Ohne Norm: Gewichte können über 1 gehen.
Mit Norm: Zuverlässige, interpretierbare Verteilung.