Verschiedene Attention-Heads lernen verschiedene Reichweiten: von lokalen Bigrammen bis zu satzweiten Abhängigkeiten – durch einfache lineare Bias-Terme.
ALiBi ersetzt komplexe Positions-Embeddings durch einen eleganten Trick: Jeder Attention-Head bekommt einen linearen Bias,
der entfernte Tokens bestraft. Die Formel ist simpel: bias(i,j) = -m × |i-j|.
Verschiedene Heads haben verschiedene Slopes m – so spezialisieren sich manche auf lokale, andere auf globale Abhängigkeiten.