Wie PagedAttention die KV-Cache-Speichernutzung durch Virtual Memory Paging optimiert
PagedAttention ist die Server-seitige Antwort auf KV-Cache-Kosten. Während GQA die Größe reduziert, maximiert Paging die Auslastung des vorhandenen Speichers.
vLLM ist der De-facto-Standard für LLM-Serving. PagedAttention ist sein Kern-Feature und ermöglicht 2-4x höheren Throughput bei Production-Workloads mit variablen Sequenzlängen.
PagedAttention teilt die KV-Cache in logische Pages auf (128-256 Tokens pro Page) und verwaltet sie wie Virtual Memory. Ermöglicht 90% Speicherreduktion bei gleicher Performance.
Standard: KV-Tensoren müssen contiguous sein → externe Fragmentierung. PagedAttention: Pages können nicht-contiguous sein → optimale Speichernutzung.
Mehrere Sequenzen unterschiedlicher Länge brauchen Standard viel Padding. PagedAttention teilt Pages → höhere GPU-Auslastung, bessere Batch-Effizienz.
Industry-Standard Implementierung von UC Berkeley. Jetzt in Produktionen bei OpenAI, Databricks, Meta. Basis für alles moderne KV-Cache-Management.
Dank GPU-optimierten Page-Lookups: <1% Latenz-Overhead. Standard: 2GB KV-Cache für 128K. PagedAttention: 200MB (10× kleiner).
Getestet mit 1M Token-Kontexten, Throughput-Verbesserungen von 10-20×. Funktioniert mit GPTQ-Quantisierung. Neue Standard-Architektur für lange Kontexte.