Warum Attention quadratisch skaliert und wie das alle modernen Optimierungen motiviert. Von 2K-Token-Limits zu 1M+ mit DSA und Sparse Attention.
Das O(n²) Problem der Self-Attention ist die fundamentale Herausforderung, die alle modernen LLM-Optimierungen antreibt. Von 2K-Token-Limits 2020 zu 1M+ heute – diese Visualisierung zeigt, wie quadratische Skalierung gelöst wurde.
Scaling & Komplexität (1/2) zeigt die fundamentalen Grenzen, bevor wir zu emergenten Fähigkeiten (2/2) kommen.
Die quadratische Skalierung bestimmt, was mit LLMs möglich ist. 1M-Token-Kontexte brauchen Sparse Attention – ohne dieses Wissen sind moderne Architekturen nicht verständlich.