KAPITEL 4.2e · KONTEXT & LÄNGEN-EXTRAPOLATION

Position Encoding und Context Extrapolation

Wie unterschiedliche Positional Encoding Methoden mit Sequenzen umgehen, die länger sind als ihre Training-Länge – RoPE, ALiBi, und Sinusoidal im Vergleich

Context Extrapolation testet die Grenzen von Position Encoding. Ein Modell trainiert auf 4K Tokens – funktioniert es bei 16K? 64K? Diese Visualisierung zeigt, warum ALiBi nativ extrapoliert, RoPE mit Extensions skaliert, und Sinusoidal katastrophal versagt.

📖 Lern-Kontext ▼

Das Extrapolations-Problem verschiedener Position Encodings vergleichen
Verstehen, warum Sinusoidal bei Out-of-Distribution-Positionen versagt
Die Rolle von Position Interpolation bei RoPE nachvollziehen

Schritt 3/6 Optimizations & Memory

Ergänzt die RoPE/ALiBi-Visualisierungen mit einem praktischen Test. Erklärt, warum moderne Modelle von 4K auf 128K+ erweitert werden können – und welche Techniken das ermöglichen.

OpenAI und Anthropic bieten 200K+ Kontexte an – aber die Modelle wurden auf viel kürzeren Sequenzen trainiert. Die Fähigkeit zur Extrapolation ist entscheidend für praktische Anwendungen wie Dokumentenanalyse.

Sinusoidal: Versagt bei unbekannten Positionen – OOD-Problem
ALiBi: Extrapoliert nativ, aber Qualität sinkt mit Distanz
RoPE + YaRN: Interpolation statt Extrapolation – zuverlässiger bei langen Kontexten

ℹ️ Szenario: Modell trainiert auf 4K Tokens, getestet auf längere Sequenzen (ohne Fine-Tuning)

Extrapolation Performance Heatmap

Gute Performance (>95% Quality)

Moderate (<85%)

Schlechte (<70%)

Accuracy Drop vs Extrapolation Ratio

Sinusoidal (schlecht extrapoliert)

RoPE + Position Interpolation

ALiBi (beste Extrapolation)

Fig. 1 | Heatmap zeigt wie drei Position Encoding Methoden mit Längen-Extrapolation umgehen. ALiBi (unten) ist stabil über alle Extrapolations-Ratios. RoPE mittelmäßig. Sinusoidal kollabiert schnell nach 2× Training-Länge.

🔴 Sinusoidal (Original Transformer)

Formel: PE(pos, 2i) = sin(pos / 10000^2i/d)
Wird durch Fourier-Frequenzen kodiert. Position wird direkt verwendet.

Max Extrapolation: 1.5-2.0×

Accuracy bei 4×: 45%

Fine-tuning nötig: Ja (1K+ steps)

Modelle: Original T5, BERT

🟡 RoPE (Rotary Position Embedding)

Formel: Position als Rotation in 2D-Unterräumen
Nutzt Position Interpolation: Indizes werden skaliert um in trainierten Bereich zu passen.

Max Extrapolation: 4-8×

Accuracy bei 8×: 82%

Fine-tuning nötig: 1000 steps empfohlen

Modelle: Llama, Mistral, PaLM

🟢 ALiBi (Attention with Linear Biases)

Formel: softmax(Q·K^T + m·[-(i-1),...,0])
Lineare Biases direkt in Attention. Head-spezifische Slopes.

Max Extrapolation: 32×+ ohne Drop!

Accuracy bei 16×: 91%

Fine-tuning nötig: Nein!

Modelle: BLOOM, MPT

Metric	Sinusoidal	RoPE	ALiBi
Training Sequenzlänge	4K	4K	1024 (BLOOM)
Sicher bis (ohne Drop)	4K (1.0×)	32K mit PI (8×)	128K+ (128×!)
Accuracy bei 8K (2×)	78%	88%	96%
Accuracy bei 32K (8×)	52%	82%	91%
Accuracy bei 128K (32×)	25% (kollapst)	65% (ohne PI)	88%
Fine-tuning (1K steps)	+20pp möglich	+12pp möglich	+2pp (schon optimal)
Computational Cost	Niedrig	Mittel (Rotationen)	Sehr Niedrig
Memory Overhead	Keiner	Keiner	Keiner
Head-dependent slopes?	Nein	Nein	Ja (verschiedene m pro Head)
Empfehlend Für	Kurze Sequenzen (<4K)	Mittlere (<128K) mit PI	Sehr lange (>128K) Kontexte

📏

ALiBi extrapoliert 32× ohne Fine-tuning

BLOOM trainiert auf 1024 Tokens, läuft auf 32K+. Sinusoidal: kollabiert bei 2×. RoPE mit Interpolation: 8× möglich. ALiBi ist das Ausnahme-Design für Längen-Generalisierung.

🔧

RoPE mit Position Interpolation ist praktisch

Position Indizes skalieren (pos_new = pos_old × (training_len / target_len)). 1K Fine-tuning-Steps reichen für 8-32× Extrapolation. Modern Standard für große Modelle.

⚠️

Sinusoidal kollabiert schnell

Bei 4× Training-Länge: 52% Accuracy. Bei 8×: 25%. Die Fourier-Frequenzen sind nicht für Extrapolation designed. Alle modernen Modelle verwenden RoPE oder ALiBi.

📊

Accuracy Drop ist Position-dependent

Early Tokens (Start des Kontexts): meist stabil. Middle/Late: Drop intensiver. Der U-curve Effect (Lost-in-the-Middle) wird mit Extrapolation schlimmer.

💡

Head-spezifische Slopes machen ALiBi robust

ALiBi Slopes m = 1/2^(8i/h) pro Head i. Jeder Head "lernt" eine andere Distanz-Sensitivität. Das ermöglicht lineare Extrapolation über beliebige Längen.

🎯

Wahl hängt von Use-Case ab

RAG/Long-Context: ALiBi oder RoPE. Training-Effizienz: RoPE (mainstream). Maximale Länge: ALiBi. Alle drei sind 2025 in production Modellen im Einsatz.

Position Encoding und Context Extrapolation

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways