Quantization Vergleich

Wie verschiedene Kompressionsverfahren (FP32, FP16, INT8, FP8, INT4, FP4) den Trade-off zwischen Modellgröße, Geschwindigkeit und Qualität verändern

Quantization komprimiert LLMs von FP32 (volle Präzision) auf FP16, INT8 oder sogar INT4 – mit dramatischen Einsparungen bei Memory und Geschwindigkeit. Der Trade-off: Leichte Qualitätsverluste, die je nach Methode variieren.

📖 Lern-Kontext ▼

Die verschiedenen Quantization-Levels (FP16, INT8, INT4) verstehen
Trade-offs zwischen Größe, Speed und Qualität abwägen
Praktische Einsatzszenarien kennenlernen

Schritt 4/4 Training & Inference

Nach Training (1/4), RLHF (2/4) und Sampling (3/4) kommen wir zu Inferenz-Optimierung (4/4) – wie man Modelle effizienter macht.

Quantization ermöglicht es, 70B-Modelle auf Consumer-GPUs zu betreiben. Ohne diese Technik wäre lokale LLM-Nutzung für die meisten unpraktikabel.

FP16: Standard für Training, minimaler Qualitätsverlust
INT8: ~4× kleiner, kaum messbare Einbußen
INT4: ~8× kleiner, merkliche aber oft akzeptable Einbußen

Größe-vs-Qualität Trade-off

Training notwendig (QAT)

Post-Training möglich (PTQ)

Edge/Mobile Fokus

Fig. 1 | Trade-off zwischen Modellgröße und Qualitätsverlust für verschiedene Quantization-Verfahren. Größere Bubbles zeigen höhere praktische Adoption.

Schlüssel-Erkenntnisse

FP32 ist der Baseline: Alle anderen Verfahren vergleichen sich gegen Full Precision. Modernes Training nutzt allerdings schon FP16/BF16 für Effizienz.

FP16 ist praktisch verlustfrei: Mit nur 2 Bytes pro Wert reduziert FP16 Speicher um 50% ohne merkliche Qualitätsverluste. Der Standard für Cloud-Inferenz.

INT8 ist das ältere Standard-Verfahren: Post-Training Quantization (PTQ) ohne Retraining möglich, aber FP8 übertrifft INT8 bei modernen Transformern.

FP8 ist die moderne Wahl: Auf neueren Hardwares (NVIDIA H100, TPU v5e) ist FP8 der optimale Kompromiss: 8 Bits, besseres Qualitäts-Verhältnis als INT8, kaum Overhead.

INT4/FP4 sind Edge-fokussiert: Extreme Kompression (16× weniger Speicher), aber erfordert Kalibrierung und LoRA-Finetunes. Praktisch für Smartphones, aber mit Qualitätsverluste.

Quantization-Aware Training schlägt PTQ: QAT (mit retraining) ergibt bessere Qualität, kostet aber Trainings-Zeit. Praktisch meist PTQ für schnelle Deployment.

Quantization Vergleich

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Quantization-Methoden im Detail

Detaillierte Übersicht

Größe-vs-Qualität Trade-off

Schlüssel-Erkenntnisse