50%
Inference Speed
3.5×

Speedup vs. Dense Attention

Memory Usage
50%

Speicher relativ zu Dense

Accuracy
98.5%

Relative zu vollem Netzwerk

Speed: Lineare Steigerung

Die Inference-Speed steigt fast linear mit der Sparsity. Bei 80% Sparsity ist das Modell ~6.5× schneller, da nur noch ~20% der Attention-Operationen durchgeführt werden.

💾
Memory: Drastische Reduktion

KV-Cache Größe sinkt quadratisch mit der Sequenzlänge. Bei 80% Sparsity (128K Sequenz) spart man 12.8 GB bei gemischtem Precision. Das ermöglicht 1M+ Token Kontexte.

🎯
Sweet Spot: 50-60%

Die beste Balance zwischen Speed und Accuracy liegt bei 50-60% Sparsity. Hier erreicht man 3-4× Speedup mit nur <2% Accuracy-Loss. Darüber wird der Trade-off ungünstiger.

⚠️
Accuracy-Plateau bei 80%+

Bei sehr hoher Sparsity (>80%) bricht die Accuracy schnell ab. Zu viele relevante Token werden ignoriert, besonders bei Reasoning-Tasks. Modelle mit starker Redundanz vertragen höhere Sparsity.

🔄
Modellabhängig

Sparse Attention ist nicht universell. DeepSeek V3 mit DSA tolert 60% Sparsity, während GPT-4 eher nur 40% verträgt. Training mit Sparse Attention ist essentiell für gute Ergebnisse.

📊
Production Use Case

Für Production: Wähle 50% Sparsity für Standard-Workloads (3.5× Speed, 99% Accuracy). Für Long Context (1M tokens) empfohlen: 70% Sparsity (6× Speed mit KV-Cache <10GB).