Verschiedene Attention-Heads lernen verschiedene Reichweiten: von lokalen Bigrammen bis zu satzweiten Abhängigkeiten – durch einfache lineare Bias-Terme.
ALiBi löst das Extrapolationsproblem mit einem eleganten Trick: Statt Position zu lernen, wird Distanz bestraft. Je weiter entfernt ein Token ist, desto stärker der negative Bias. Verschiedene Heads haben verschiedene Slopes – so entstehen automatisch lokale und globale Experten.
Position Encoding bestimmt, wie weit ein Modell „sehen" kann. ALiBi ist eine von zwei modernen Lösungen (neben RoPE) für die Kontexterweiterung jenseits der Trainingslänge.
BLOOM (176B Parameter) nutzt ALiBi und kann auf 100K+ Tokens extrapolieren, obwohl es nur auf 2K trainiert wurde. Das Prinzip ist so einfach, dass es in einer Zeile Code implementierbar ist.
ALiBi ersetzt komplexe Positions-Embeddings durch einen eleganten Trick: Jeder Attention-Head bekommt einen linearen Bias,
der entfernte Tokens bestraft. Die Formel ist simpel: bias(i,j) = -m × |i-j|.
Verschiedene Heads haben verschiedene Slopes m – so spezialisieren sich manche auf lokale, andere auf globale Abhängigkeiten.