ℹ️ Szenario: Modell trainiert auf 4K Tokens, getestet auf längere Sequenzen (ohne Fine-Tuning)
Extrapolation Performance Heatmap
Gute Performance (>95% Quality)
Moderate (<85%)
Schlechte (<70%)
Accuracy Drop vs Extrapolation Ratio
Sinusoidal (schlecht extrapoliert)
ALiBi (beste Extrapolation)
Fig. 1 | Heatmap zeigt wie drei Position Encoding Methoden mit Längen-Extrapolation umgehen. ALiBi (unten) ist stabil über alle Extrapolations-Ratios. RoPE mittelmäßig. Sinusoidal kollabiert schnell nach 2× Training-Länge.
🔴 Sinusoidal (Original Transformer)
Formel: PE(pos, 2i) = sin(pos / 10000^(2i/d))
Wird durch Fourier-Frequenzen kodiert. Position wird direkt verwendet.
Max Extrapolation: 1.5-2.0×
Accuracy bei 4×: 45%
Fine-tuning nötig: Ja (1K+ steps)
Modelle: Original T5, BERT
🟡 RoPE (Rotary Position Embedding)
Formel: Position als Rotation in 2D-Unterräumen
Nutzt Position Interpolation: Indizes werden skaliert um in trainierten Bereich zu passen.
Max Extrapolation: 4-8×
Accuracy bei 8×: 82%
Fine-tuning nötig: 1000 steps empfohlen
Modelle: Llama, Mistral, PaLM
🟢 ALiBi (Attention with Linear Biases)
Formel: softmax(Q·K^T + m·[-(i-1),...,0])
Lineare Biases direkt in Attention. Head-spezifische Slopes.
Max Extrapolation: 32×+ ohne Drop!
Accuracy bei 16×: 91%
Fine-tuning nötig: Nein!
Modelle: BLOOM, MPT
Metric Sinusoidal RoPE ALiBi
Training Sequenzlänge 4K 4K 1024 (BLOOM)
Sicher bis (ohne Drop) 4K (1.0×) 32K mit PI (8×) 128K+ (128×!)
Accuracy bei 8K (2×) 78% 88% 96%
Accuracy bei 32K (8×) 52% 82% 91%
Accuracy bei 128K (32×) 25% (kollapst) 65% (ohne PI) 88%
Fine-tuning (1K steps) +20pp möglich +12pp möglich +2pp (schon optimal)
Computational Cost Niedrig Mittel (Rotationen) Sehr Niedrig
Memory Overhead Keiner Keiner Keiner
Head-dependent slopes? Nein Nein Ja (verschiedene m pro Head)
Empfehlend Für Kurze Sequenzen (<4K) Mittlere (<128K) mit PI Sehr lange (>128K) Kontexte
📏
ALiBi extrapoliert 32× ohne Fine-tuning
BLOOM trainiert auf 1024 Tokens, läuft auf 32K+. Sinusoidal: kollabiert bei 2×. RoPE mit Interpolation: 8× möglich. ALiBi ist das Ausnahme-Design für Längen-Generalisierung.
🔧
RoPE mit Position Interpolation ist praktisch
Position Indizes skalieren (pos_new = pos_old × (training_len / target_len)). 1K Fine-tuning-Steps reichen für 8-32× Extrapolation. Modern Standard für große Modelle.
⚠️
Sinusoidal kollabiert schnell
Bei 4× Training-Länge: 52% Accuracy. Bei 8×: 25%. Die Fourier-Frequenzen sind nicht für Extrapolation designed. Alle modernen Modelle verwenden RoPE oder ALiBi.
📊
Accuracy Drop ist Position-dependent
Early Tokens (Start des Kontexts): meist stabil. Middle/Late: Drop intensiver. Der U-curve Effect (Lost-in-the-Middle) wird mit Extrapolation schlimmer.
💡
Head-spezifische Slopes machen ALiBi robust
ALiBi Slopes m = 1/2^(8i/h) pro Head i. Jeder Head "lernt" eine andere Distanz-Sensitivität. Das ermöglicht lineare Extrapolation über beliebige Längen.
🎯
Wahl hängt von Use-Case ab
RAG/Long-Context: ALiBi oder RoPE. Training-Effizienz: RoPE (mainstream). Maximale Länge: ALiBi. Alle drei sind 2025 in production Modellen im Einsatz.