Sinusoidal Position Encoding

Wie Transformer die Reihenfolge von Tokens verstehen – durch Sinus- und Cosinuswellen verschiedener Frequenzen wird jede Position eindeutig kodiert.

Positional Encoding gibt Transformern ein Gefühl für Reihenfolge. Da Self-Attention positions-agnostisch ist, müssen wir die Position jedes Tokens explizit in den Eingabevektor eincodieren.

📖 Lern-Kontext ▼

Verstehen, warum Transformer ohne PE nur "Bags of Words" wären
Die Sinus/Cosinus-Formel und ihre Frequenzmuster nachvollziehen
Erkennen, wie verschiedene Frequenzen verschiedene Positionsskalen kodieren

Schritt 3/8 Transformer Grundlagen

Nach Tokenisierung (1) und Embedding (2) haben wir bedeutungsvolle Vektoren, aber ohne Positionsinformation. Hier fügen wir die Reihenfolge hinzu, bevor die Vektoren in Self-Attention (Schritt 4) fließen.

Ohne Position Encoding würde "Der Hund beißt den Mann" genauso verarbeitet wie "Der Mann beißt den Hund". Moderne Modelle nutzen RoPE statt sinusoidaler Encodings, da RoPE besser auf längere Sequenzen extrapoliert.

PE wird zu Token-Embeddings addiert (nicht konkateniert)
Verschiedene Frequenzen kodieren verschiedene Positionsskalen
Moderner Standard: RoPE (Llama, GPT-4) statt sinusoidal

PE_{(pos, 2i)} = sin(pos / 10000^2i/d) PE_{(pos, 2i+1)} = cos(pos / 10000^2i/d)

Gerade Dimensionen (2i) nutzen Sinus, ungerade (2i+1) nutzen Cosinus.
Verschiedene Dimensionen haben verschiedene Frequenzen (10000^2i/d).

💡 Warum Sinus und Cosinus?

Eindeutige Positionen: Jede Position erhält einen einzigartigen Vektor. Die Kombination verschiedener Frequenzen funktioniert wie ein "Binärzähler" – niedrige Dimensionen oszillieren schnell (Einer-Stelle), hohe langsam (Tausender-Stelle).

Relative Positionen: Für jede feste Distanz k existiert eine lineare Transformation, die PE(pos) auf PE(pos+k) abbildet. Das Modell kann so lernen, relative Abstände zu nutzen.

Generalisierung: Die Funktionen sind für beliebige Positionen definiert – theoretisch auch für längere Sequenzen als im Training gesehen.

Sinusoidal (Original) 2017

Keine trainierbaren Parameter
Theoretisch unbegrenzte Länge
Feste, deterministische Werte
Verwendet in: Original Transformer

RoPE (Rotary) Modern

Rotation statt Addition
Bessere Extrapolation
Relative Positionen natürlich
Verwendet in: Llama, Mistral, PaLM

ALiBi (Linear Bias) Modern

Kein separates Encoding
Bias direkt auf Attention-Scores
Zero-Shot Längenextrapolation
Verwendet in: BLOOM, MPT

Sinusoidal Position Encoding

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways