Warum LLMs Informationen am Anfang und Ende verstehen, aber die Mitte ignorieren – das Lost-in-the-Middle Phänomen
Attention-Verteilung zeigt die Heatmap hinter dem Lost-in-the-Middle-Effekt. Verschiedene Layer haben verschiedene Attention-Muster – frühe Layer fokussieren lokal, späte Layer global. Diese Visualisierung macht sichtbar, wo Information verloren geht.
Detail-Visualisierung der Attention-Distribution. Ergänzt die High-Level-Erklärung von Lost-in-the-Middle mit Layer-by-Layer-Analyse.
Zu verstehen, in welchen Layern Information verloren geht, hilft bei der Entwicklung von Mitigationsstrategien – von Sparse Attention bis Position Interpolation.
| Modell | Kontext | U-Curve | Lösung |
|---|---|---|---|
| GPT-4 | 128K | Stark (6.8) | Dokumente vorne platzieren |
| Claude 3.5 | 200K | Mittelschwach (5.5) | Question Answering Format |
| Llama 3 70B | 128K | Stark (7.0) | Hybrid Position Engineering |
| Mistral 8×7B | 32K | Schwach (4.2) | Weniger anfällig durch SWA |