RoPE Rotation Animation

Visualisierung wie Rotary Position Embeddings (RoPE) relative Positionen durch Vektor-Rotation kodieren

RoPE Rotation zeigt, wie Position als Winkel codiert wird. Jedes 2D-Paar im Embedding wird um einen positionsabhängigen Winkel rotiert. Der Clou: Das Dot-Product zwischen zwei rotierten Vektoren hängt nur von ihrer relativen Position ab – perfekt für Attention.

📖 Lern-Kontext ▼

Die geometrische Intuition hinter RoPE verstehen: Position = Rotationswinkel
Nachvollziehen, wie 2D-Unterräume unabhängig rotiert werden
Erkennen, warum relative Position durch Rotation-Differenz entsteht

Schritt 2/6 Optimizations & Memory

Diese Animation macht die mathematische Idee von RoPE greifbar. Ergänzt die theoretische RoPE-ALiBi-Übersicht mit einer interaktiven Visualisierung.

RoPE ist das Position Encoding in Llama, Mistral, Qwen und den meisten Open-Source-Modellen. Zu verstehen, wie es funktioniert, erklärt, warum diese Modelle auf 128K+ Tokens erweitert werden können.

Dimension-Paare: Embedding wird in d/2 2D-Paare aufgeteilt, jedes mit eigenem Basiswinkel
Frequenz-Mix: Verschiedene Paare rotieren mit verschiedenen Frequenzen (wie Fourier)
Relative Position: q·k = f(q, k, relative_pos), nicht absolute Position

Was ist RoPE?

Rotary Position Embedding (RoPE) rotiert Vektoren in 2D-Unterräumen basierend auf ihrer Position. Der Schlüssel: Relative Position zwischen zwei Tokens entspricht der Rotationsdifferenz ihrer Embeddings. Dies ermöglicht Zero-Shot-Längen-Extrapolation und wird in Llama, PaLM und GPT-NeoX verwendet.

RoPE Formel

RoPE(x, m) = [
cos(m·θ) · x₀ - sin(m·θ) · x₁,
sin(m·θ) · x₀ + cos(m·θ) · x₁
]

m: Position des Tokens
θ: Rotationsfrequenz (z.B. 1/10000^2i/d)
x₀, x₁: 2D-Unterraum des Vektors

Warum funktioniert RoPE?

Das Skalarprodukt zwischen Query an Position m und Key an Position n:

q_m · k_n = q · k · cos((m-n)·θ)

Hängt nur von der relativen Position (m-n) ab, nicht von absoluten Positionen! Dies ermöglicht Längen-Extrapolation: Wenn das Modell auf 2K Tokens trainiert wurde, funktioniert es oft auch bei 8K+ Tokens.

RoPE Rotation Animation

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Was ist RoPE?

Steuerung

Rotationswinkel

RoPE Formel

Warum funktioniert RoPE?