PagedAttention - KV-Cache Optimization

PagedAttention: Virtual Memory für KV-Cache

Wie PagedAttention die KV-Cache-Speichernutzung durch Virtual Memory Paging optimiert

PagedAttention bringt Virtual Memory in den KV-Cache. Statt zusammenhängenden Speicher für jede Sequenz zu reservieren, werden kleine Pages dynamisch zugewiesen. Das Ergebnis: Bis zu 4x mehr parallele Requests bei gleichem GPU-Speicher – die Grundlage von vLLM.

📖 Lern-Kontext ▼

Das Fragmentierungs-Problem bei kontinuierlichem KV-Cache verstehen
Nachvollziehen, wie Paging Speicher-Effizienz verbessert
Die Analogie zu OS Virtual Memory erkennen

Schritt 5/6 Optimizations & Memory

PagedAttention ist die Server-seitige Antwort auf KV-Cache-Kosten. Während GQA die Größe reduziert, maximiert Paging die Auslastung des vorhandenen Speichers.

vLLM ist der De-facto-Standard für LLM-Serving. PagedAttention ist sein Kern-Feature und ermöglicht 2-4x höheren Throughput bei Production-Workloads mit variablen Sequenzlängen.

Fragmentierung: Ohne Paging bleiben bis zu 60% des KV-Cache-Speichers ungenutzt
Pages: Kleine Blöcke (z.B. 16 Tokens) werden dynamisch allokiert und freigegeben
Block Table: Lookup-Tabelle mappt logische Positionen auf physische Pages

Virtual Memory Paging

PagedAttention teilt die KV-Cache in logische Pages auf (128-256 Tokens pro Page) und verwaltet sie wie Virtual Memory. Ermöglicht 90% Speicherreduktion bei gleicher Performance.

Memory Efficiency

Standard: KV-Tensoren müssen contiguous sein → externe Fragmentierung. PagedAttention: Pages können nicht-contiguous sein → optimale Speichernutzung.

Batch Processing

Mehrere Sequenzen unterschiedlicher Länge brauchen Standard viel Padding. PagedAttention teilt Pages → höhere GPU-Auslastung, bessere Batch-Effizienz.

vLLM Implementation

Industry-Standard Implementierung von UC Berkeley. Jetzt in Produktionen bei OpenAI, Databricks, Meta. Basis für alles moderne KV-Cache-Management.

Latency Overhead

Dank GPU-optimierten Page-Lookups: <1% Latenz-Overhead. Standard: 2GB KV-Cache für 128K. PagedAttention: 200MB (10× kleiner).

Production Ready

Getestet mit 1M Token-Kontexten, Throughput-Verbesserungen von 10-20×. Funktioniert mit GPTQ-Quantisierung. Neue Standard-Architektur für lange Kontexte.

PagedAttention: Virtual Memory für KV-Cache

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Standard KV-Cache (Contiguous)

PagedAttention (Virtual Memory)