Attention-Verteilung – LLM Explorer

Attention-Verteilung in langen Kontexten

Warum LLMs Informationen am Anfang und Ende verstehen, aber die Mitte ignorieren – das Lost-in-the-Middle Phänomen

Attention-Verteilung zeigt die Heatmap hinter dem Lost-in-the-Middle-Effekt. Verschiedene Layer haben verschiedene Attention-Muster – frühe Layer fokussieren lokal, späte Layer global. Diese Visualisierung macht sichtbar, wo Information verloren geht.

📖 Lern-Kontext ▼

Die Attention-Heatmap verschiedener Transformer-Layer interpretieren
Erkennen, wie Layer-Tiefe die Attention-Patterns verändert
Das U-Kurven-Muster in den Daten identifizieren

Schritt 3/4 In-Context Learning & Prompting

Detail-Visualisierung der Attention-Distribution. Ergänzt die High-Level-Erklärung von Lost-in-the-Middle mit Layer-by-Layer-Analyse.

Zu verstehen, in welchen Layern Information verloren geht, hilft bei der Entwicklung von Mitigationsstrategien – von Sparse Attention bis Position Interpolation.

Layer 1-4: Lokale Attention, Fokus auf benachbarte Tokens
Layer 12+: Globale Patterns, aber U-Kurve wird sichtbar
Mittel-Dropout: Token 30-70% erhalten signifikant weniger Attention

📊

U-Curve ist ein echtes Phänomen

Nicht ein Artefakt, sondern messbar in Modellen mit 32K, 100K und größeren Kontextfenstern. Early Layers zeigen stärkere U-Curve.

⚠️

RAG-Konsequenzen sind groß

Retrieved Dokumente in der Mitte erhalten nur 12-15% Attention. Kritische Informationen müssen am Anfang oder Ende platziert werden.

🔍

System Prompts konkurrieren um Attention

Ein langer System Prompt (z.B. Claude: 16K Wörter) konsumiert 20-25% der Attention-Budget, auch wenn Nutzer-Input wichtiger ist.

📈

Layer-weise Unterschiede

Frühe Layer (4): 7.8 U-Curve Score. Mittlere Layer (32): 6.5. Späte Layer (64): 5.2. Obere Schichten fokussieren mehr auf globale Struktur.

⏰

Recency Bias am Ende

Query-Tokens am Ende bekommen +15-20% mehr Attention als am Anfang. Dies hilft Modellen, jüngste Anfragen zu bevorzugen.

🚫

Training kann U-Curve nicht beheben

Selbst Modelle, die auf lange Sequenzen fine-tuned wurden, zeigen die U-Curve. Sie ist strukturell in der Attention-Architektur verankert.

Modell	Kontext	U-Curve	Lösung
GPT-4	128K	Stark (6.8)	Dokumente vorne platzieren
Claude 3.5	200K	Mittelschwach (5.5)	Question Answering Format
Llama 3 70B	128K	Stark (7.0)	Hybrid Position Engineering
Mistral 8×7B	32K	Schwach (4.2)	Weniger anfällig durch SWA

Modell

Kontext

U-Curve

Lösung

GPT-4

128K

Stark (6.8)

Dokumente vorne platzieren

Claude 3.5

200K

Mittelschwach (5.5)

Question Answering Format

Llama 3 70B

128K

Stark (7.0)

Hybrid Position Engineering

Mistral 8×7B

32K

Schwach (4.2)

Weniger anfällig durch SWA

Attention-Verteilung in langen Kontexten

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways