⚙️ Interaktive Steuerung

Position: 4 (Wort: "Model")
τ = 1.0
8 Positionen
Dokument:
[0] Die Die | [1] moderne | [2] künstliche | [3] Intelligenz | [4] Model | [5] braucht | [6] viele | [7] Parameter
Attention Heatmap (Position × Document)
Hohe Attention (1.0)
Mittlere Attention (0.5)
Niedrig (0.0)
Entropy
0.00
Max Attention
0.00
Fokus Width
0.00
Head-Typ
Syntax
Fig. 1 | Interaktive Attention-Heatmap: X-Achse = Dokument-Positionen, Y-Achse = Query-Position. Helles Lila = Hohe Attention-Gewichte (das Modell achtet darauf). Dunkel = Niedrig (ignoriert). Temperature kontrolliert Sharpness der Verteilung. Verschiedene Heads spezialisieren sich: Head 0 achtet auf Syntax, Head 1 auf Semantik.
🎯
Attention als Fokus-Mechanismus
Helle Farben zeigen, worauf das Modell "achtet". Query-Position 4 ("Model") kann sich verschiedene Tokens ansehen. Verteilung zeigt: Wichtige Kontexte bekommen hohe Gewichte.
🌡️
Temperature reguliert Sharpness
τ = 0.1 → Sehr scharf (fast nur ein Token). τ = 1.0 → Ausgewogen. τ = 2.0 → Diffus (viele Tokens gleichmäßig). Höhere Tempera­tur = größeres Fenster für "Kontext-Verständnis".
🧠
Multi-Head Spezialisierung
Head 0 (Syntax): Achtet auf grammatikalische Struktur (oft nächste Wörter). Head 1 (Semantik): Achtet auf inhaltlich verwandte Wörter (können weit weg sein). Heads zusammen = Vollständiges Verständnis.
📊
Entropy misst Unsicherheit
Hohe Entropy = Viele Möglichkeiten (Modell ist unsicher). Niedrige Entropy = Klarer Fokus (Modell hat Vertrauen). Gute Modelle: Hohe Entropy wenn mehrdeutig, niedrig bei klaren Fällen.
🔍
Fenster-Mechaniken (Causal Masking)
Auto-Regressive Modelle: Können nur rückwärts schauen (Causal Mask). Query bei Position 4 sieht nur [0,1,2,3,4]. Nicht [5,6,7]. Dieser Mechanismus verhindert, dass Modell die Zukunft "schummelt".
⚖️
Softmax Normalisierung garantiert Summe=1
Alle Gewichte zusammen summieren sich zu 1.0 (Wahrscheinlichkeitsverteilung). Toggle Normalisierung an/aus, um Unterschied zu sehen. Ohne Norm: Gewichte können über 1 gehen. Mit Norm: Zuverlässige, interpretierbare Verteilung.