DeepSeek Sparse Attention (DSA): Schiebe den Sparsity-Slider und vergleiche Dense Attention (chaotisch, speicherintensiv) mit Sparse Attention (strukturiert, 70% weniger Memory).
Sparse Attention berechnet nur relevante Token-Paare statt der vollen n×n Matrix. Dense Semantic Attention (DSA) nutzt ML, um die wichtigsten Verbindungen zu identifizieren — mit 70% weniger Memory bei minimaler Qualitätseinbuße.
Schritt 4/5 in Kapitel 2 „Moderne Architekturvarianten"
Nach Flash Attention: Algorithmische Optimierung für extreme Kontextlängen (200K+). DSA macht 1M+ Token-Kontexte praktikabel.
DSA ist Production-ready in Claude 4.5 für 200K+ Kontexte. Selektiert nur ~10-20% der Token-Paare, ohne messbare Qualitätsverluste bei den meisten Tasks.