Wie beeinflusst die Sparsity-Stufe die Inferenz-Performance? Interaktiv erkunden, wie sich Speed, Speicher und Accuracy ändern.
Speedup vs. Dense Attention
Speicher relativ zu Dense
Relative zu vollem Netzwerk
Die Inference-Speed steigt fast linear mit der Sparsity. Bei 80% Sparsity ist das Modell ~6.5× schneller, da nur noch ~20% der Attention-Operationen durchgeführt werden.
KV-Cache Größe sinkt quadratisch mit der Sequenzlänge. Bei 80% Sparsity (128K Sequenz) spart man 12.8 GB bei gemischtem Precision. Das ermöglicht 1M+ Token Kontexte.
Die beste Balance zwischen Speed und Accuracy liegt bei 50-60% Sparsity. Hier erreicht man 3-4× Speedup mit nur <2% Accuracy-Loss. Darüber wird der Trade-off ungünstiger.
Bei sehr hoher Sparsity (>80%) bricht die Accuracy schnell ab. Zu viele relevante Token werden ignoriert, besonders bei Reasoning-Tasks. Modelle mit starker Redundanz vertragen höhere Sparsity.
Sparse Attention ist nicht universell. DeepSeek V3 mit DSA tolert 60% Sparsity, während GPT-4 eher nur 40% verträgt. Training mit Sparse Attention ist essentiell für gute Ergebnisse.
Für Production: Wähle 50% Sparsity für Standard-Workloads (3.5× Speed, 99% Accuracy). Für Long Context (1M tokens) empfohlen: 70% Sparsity (6× Speed mit KV-Cache <10GB).