Wie unterschiedliche Positional Encoding Methoden mit Sequenzen umgehen, die länger sind als ihre Training-Länge – RoPE, ALiBi, und Sinusoidal im Vergleich
| Metric | Sinusoidal | RoPE | ALiBi |
|---|---|---|---|
| Training Sequenzlänge | 4K | 4K | 1024 (BLOOM) |
| Sicher bis (ohne Drop) | 4K (1.0×) | 32K mit PI (8×) | 128K+ (128×!) |
| Accuracy bei 8K (2×) | 78% | 88% | 96% |
| Accuracy bei 32K (8×) | 52% | 82% | 91% |
| Accuracy bei 128K (32×) | 25% (kollapst) | 65% (ohne PI) | 88% |
| Fine-tuning (1K steps) | +20pp möglich | +12pp möglich | +2pp (schon optimal) |
| Computational Cost | Niedrig | Mittel (Rotationen) | Sehr Niedrig |
| Memory Overhead | Keiner | Keiner | Keiner |
| Head-dependent slopes? | Nein | Nein | Ja (verschiedene m pro Head) |
| Empfehlend Für | Kurze Sequenzen (<4K) | Mittlere (<128K) mit PI | Sehr lange (>128K) Kontexte |