Wie verschiedene Kompressionsverfahren (FP32, FP16, INT8, FP8, INT4, FP4) den Trade-off zwischen Modellgröße, Geschwindigkeit und Qualität verändern
Nach Training (1/4), RLHF (2/4) und Sampling (3/4) kommen wir zu Inferenz-Optimierung (4/4) – wie man Modelle effizienter macht.
Quantization ermöglicht es, 70B-Modelle auf Consumer-GPUs zu betreiben. Ohne diese Technik wäre lokale LLM-Nutzung für die meisten unpraktikabel.
| Quantization | Bits | Größe (70B) | Speedup | Qualitätsverlust | Training | Primär Use-Case |
|---|