KAPITEL 4.2 · POSITIONAL ENCODING

ALiBi (Attention with Linear Biases)

Verschiedene Attention-Heads lernen verschiedene Reichweiten: von lokalen Bigrammen bis zu satzweiten Abhängigkeiten – durch einfache lineare Bias-Terme.

ALiBi löst das Extrapolationsproblem mit einem eleganten Trick: Statt Position zu lernen, wird Distanz bestraft. Je weiter entfernt ein Token ist, desto stärker der negative Bias. Verschiedene Heads haben verschiedene Slopes – so entstehen automatisch lokale und globale Experten.

📖 Lern-Kontext ▼

Das lineare Distanz-Bias-Prinzip verstehen: bias = -m × |i-j|
Erkennen, wie verschiedene Slope-Werte m Head-Spezialisierung erzeugen
Nachvollziehen, warum ALiBi ohne zusätzliche Parameter extrapoliert

Schritt 2/6 Optimizations & Memory

Position Encoding bestimmt, wie weit ein Modell „sehen" kann. ALiBi ist eine von zwei modernen Lösungen (neben RoPE) für die Kontexterweiterung jenseits der Trainingslänge.

BLOOM (176B Parameter) nutzt ALiBi und kann auf 100K+ Tokens extrapolieren, obwohl es nur auf 2K trainiert wurde. Das Prinzip ist so einfach, dass es in einer Zeile Code implementierbar ist.

Keine lernbaren Parameter: ALiBi-Biases sind fixed, nicht trainierbar
Head-Spezialisierung: Slope-Werte m folgen einer geometrischen Reihe (2^-1 bis 2^-8)
Zero-Shot Extrapolation: Funktioniert auf Sequenzen länger als im Training

Kernidee

ALiBi ersetzt komplexe Positions-Embeddings durch einen eleganten Trick: Jeder Attention-Head bekommt einen linearen Bias, der entfernte Tokens bestraft. Die Formel ist simpel: bias(i,j) = -m × |i-j|. Verschiedene Heads haben verschiedene Slopes m – so spezialisieren sich manche auf lokale, andere auf globale Abhängigkeiten.

8 Heads = 8 verschiedene Reichweiten

Attention:

0% 100%

Focus-Token: Wie stark werden entfernte Tokens bestraft?

Query-Position wählen:

Head 0 (m=1/8) – Short Range

Head 7 (m=1/1024) – Long Range

Attention-Berechnung: Step by Step

Wie ALiBi die Attention-Scores modifiziert

Extrapolation: Training kurz, Inferenz lang

Sequenzlänge:

512 Tokens

Training

Tokens

→

Inferenz
512
50% der Trainingslänge

✓

Funktioniert?

Ja!

ALiBi skaliert linear

ALiBi vs. RoPE: Der Vergleich

📐

ALiBi

✅ Einfach: Addiert nur Konstanten (keine Rotation)

✅ 30% schneller als RoPE in der Berechnung

✅ Extrapoliert: Training auf 1K, Inferenz bis 8K+

✅ Verwendet von: BLOOM (176B), MPT (7B-65B)

🔄

RoPE

⚙️ Komplex: Rotiert Q/K Vektoren im Komplexen

⚙️ Mehr Berechnung durch Sinus/Kosinus-Operationen

⚠️ Braucht Interpolation für längere Sequenzen

⚙️ Verwendet von: LLaMA, Mistral, GPT-NeoX

Warum verschiedene Slopes?

Kleine Slopes (m=1/8): Starke lokale Präferenz für Bigramme und Phrasen. Große Slopes (m=1/1024): Schwache Distanz-Strafe ermöglicht Long-Range Dependencies.

Causal Masking

Die obere Dreiecksmatrix (j > i) wird auf -∞ gesetzt – wie bei Standard-Attention. ALiBi-Bias wirkt nur auf die untere Dreiecksmatrix (vergangene Tokens).

Production-Ready

BLOOM (176B Parameter) und MPT-Modelle verwenden ALiBi als Standard. Einfache Implementierung, bessere Length Generalization als Sinusoidal.

ALiBi (Attention with Linear Biases)

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways