Wie MoE-Modelle mehr Parameter mit gleicher Compute-Kostne haben können als Dense-Modelle
Parameter vs. Compute zeigt das zentrale Trade-off bei MoE-Modellen: Sie haben viele Parameter, aber nur ein Bruchteil ist bei jedem Token aktiv. Das ermöglicht "billige" große Modelle mit derselben Inference-Geschwindigkeit.
Scaling Laws (1/5) erklärt das Verhältnis von Parametern zu Compute bei verschiedenen Architekturen.
Modelle wie Mixtral (8×7B) und Llama 4 Maverick (17B/400B) zeigen: MoE kann Dense-Performance mit Bruchteil der Kosten liefern. Das verändert die Ökonomie von LLMs.
| Modell | Architektur | Gesamtparameter | Aktive Parameter | Verhältnis | Release |
|---|---|---|---|---|---|
| GPT-3 DENSE | Dense Transformer | 175B | 175B | 1:1 (100%) | 2020 |
| Mixtral 8x7B MoE | 8 Expert MoE | 47B | 13B | 3.6:1 (27%) | 2023 |
| Mixtral 8x22B MoE | 8 Expert MoE | 141B | 39B | 3.6:1 (27%) | 2024 |
| Grok-1 MoE | ? Expert MoE | 314B | ~86B | ~3.6:1 | 2023 |
| DeepSeek R1 MoE | Multi-Expert MoE | 671B | 37B | 18.1:1 (5.5%) | 2024 |