Wie Transformer die Reihenfolge von Tokens verstehen – durch Sinus- und Cosinuswellen verschiedener Frequenzen wird jede Position eindeutig kodiert.
Positional Encoding gibt Transformern ein Gefühl für Reihenfolge. Da Self-Attention positions-agnostisch ist, müssen wir die Position jedes Tokens explizit in den Eingabevektor eincodieren.
Nach Tokenisierung (1) und Embedding (2) haben wir bedeutungsvolle Vektoren, aber ohne Positionsinformation. Hier fügen wir die Reihenfolge hinzu, bevor die Vektoren in Self-Attention (Schritt 4) fließen.
Ohne Position Encoding würde "Der Hund beißt den Mann" genauso verarbeitet wie "Der Mann beißt den Hund". Moderne Modelle nutzen RoPE statt sinusoidaler Encodings, da RoPE besser auf längere Sequenzen extrapoliert.
Eindeutige Positionen: Jede Position erhält einen einzigartigen Vektor. Die Kombination verschiedener Frequenzen funktioniert wie ein "Binärzähler" – niedrige Dimensionen oszillieren schnell (Einer-Stelle), hohe langsam (Tausender-Stelle).
Relative Positionen: Für jede feste Distanz k existiert
eine lineare Transformation, die PE(pos) auf PE(pos+k) abbildet.
Das Modell kann so lernen, relative Abstände zu nutzen.
Generalisierung: Die Funktionen sind für beliebige Positionen definiert – theoretisch auch für längere Sequenzen als im Training gesehen.