Berechne den Speicherbedarf des Key-Value-Cache bei verschiedenen Sequenzlängen, Präzisionen und Batch-Größen. Vergleiche MHA vs. GQA vs. MQA.
Dieser Rechner zeigt die praktische Realität von KV-Cache-Speicher. Ein 70B-Modell mit 128K Kontext braucht über 40 GB nur für den Cache – oft mehr als die Modellgewichte selbst. GQA und MQA sind keine Optimierungen, sondern Notwendigkeiten.
Ergänzt die KV-Cache Animation mit konkreten Zahlen. Erklärt, warum moderne Modelle GQA nutzen müssen und wie Batch-Größe den Speicher beeinflusst.
GPU-Speicher ist der Flaschenhals bei LLM-Inference. 200K Kontext bei Llama 3 braucht ~25 GB Cache allein – mehr als eine A100-40GB für ein einzelnes Request erlaubt. Diese Rechnung bestimmt, welche Modelle auf welcher Hardware laufen.