1K
Niedrig
Hoch
0% 50% 100%
18%
Dokumente
12%
U-Curve Score
7.2
Fig. 1 | U-förmige Attention-Verteilung zeigt starke Aufmerksamkeit am Anfang (System Prompt) und Ende (Query), während Informationen in der Mitte (Dokumente) schwächer beachtet werden. Schichten-abhängige Unterschiede sind deutlich sichtbar.
Sequenzstruktur: System Prompt User Query Retrieved Docs (1-3) Query wiederholt
📊
U-Curve ist ein echtes Phänomen
Nicht ein Artefakt, sondern messbar in Modellen mit 32K, 100K und größeren Kontextfenstern. Early Layers zeigen stärkere U-Curve.
⚠️
RAG-Konsequenzen sind groß
Retrieved Dokumente in der Mitte erhalten nur 12-15% Attention. Kritische Informationen müssen am Anfang oder Ende platziert werden.
🔍
System Prompts konkurrieren um Attention
Ein langer System Prompt (z.B. Claude: 16K Wörter) konsumiert 20-25% der Attention-Budget, auch wenn Nutzer-Input wichtiger ist.
📈
Layer-weise Unterschiede
Frühe Layer (4): 7.8 U-Curve Score. Mittlere Layer (32): 6.5. Späte Layer (64): 5.2. Obere Schichten fokussieren mehr auf globale Struktur.
Recency Bias am Ende
Query-Tokens am Ende bekommen +15-20% mehr Attention als am Anfang. Dies hilft Modellen, jüngste Anfragen zu bevorzugen.
🚫
Training kann U-Curve nicht beheben
Selbst Modelle, die auf lange Sequenzen fine-tuned wurden, zeigen die U-Curve. Sie ist strukturell in der Attention-Architektur verankert.
Modell Kontext U-Curve Lösung
GPT-4 128K Stark (6.8) Dokumente vorne platzieren
Claude 3.5 200K Mittelschwach (5.5) Question Answering Format
Llama 3 70B 128K Stark (7.0) Hybrid Position Engineering
Mistral 8×7B 32K Schwach (4.2) Weniger anfällig durch SWA