📊
U-Curve ist ein echtes Phänomen
Nicht ein Artefakt, sondern messbar in Modellen mit 32K, 100K und größeren Kontextfenstern. Early Layers zeigen stärkere U-Curve.
⚠️
RAG-Konsequenzen sind groß
Retrieved Dokumente in der Mitte erhalten nur 12-15% Attention. Kritische Informationen müssen am Anfang oder Ende platziert werden.
🔍
System Prompts konkurrieren um Attention
Ein langer System Prompt (z.B. Claude: 16K Wörter) konsumiert 20-25% der Attention-Budget, auch wenn Nutzer-Input wichtiger ist.
📈
Layer-weise Unterschiede
Frühe Layer (4): 7.8 U-Curve Score. Mittlere Layer (32): 6.5. Späte Layer (64): 5.2. Obere Schichten fokussieren mehr auf globale Struktur.
⏰
Recency Bias am Ende
Query-Tokens am Ende bekommen +15-20% mehr Attention als am Anfang. Dies hilft Modellen, jüngste Anfragen zu bevorzugen.
🚫
Training kann U-Curve nicht beheben
Selbst Modelle, die auf lange Sequenzen fine-tuned wurden, zeigen die U-Curve. Sie ist strukturell in der Attention-Architektur verankert.