Parameter vs Compute Effizienz

Wie MoE-Modelle mehr Parameter mit gleicher Compute-Kostne haben können als Dense-Modelle

Parameter vs. Compute zeigt das zentrale Trade-off bei MoE-Modellen: Sie haben viele Parameter, aber nur ein Bruchteil ist bei jedem Token aktiv. Das ermöglicht "billige" große Modelle mit derselben Inference-Geschwindigkeit.

📖 Lern-Kontext ▼

Den Unterschied zwischen Total und Active Parameters verstehen
MoE-Effizienz quantifizieren können
Praktische Implikationen für Inference kennen

Schritt 1/5 Kapitel 8: Werkzeuge & Glossar

Scaling Laws (1/5) erklärt das Verhältnis von Parametern zu Compute bei verschiedenen Architekturen.

Modelle wie Mixtral (8×7B) und Llama 4 Maverick (17B/400B) zeigen: MoE kann Dense-Performance mit Bruchteil der Kosten liefern. Das verändert die Ökonomie von LLMs.

Mixtral: 8×7B total, nur 2×7B aktiv = 4× Effizienz
Llama 4: 400B total, 17B aktiv = 24× Effizienz
Trade-off: Mehr Memory, gleiche Latenz

Fig. 1 | Vergleich: Dense Model (13B Parameter, 13B aktiv) vs MoE (47B Parameter, 13B aktiv). Die "aktive" Compute ist identisch, aber MoE kann 3.6× mehr Parameter speichern.

Dense Model (z.B. GPT-3)

Gesamtparameter 13B

Aktive Parameter 13B (100%)

Speicherbedarf 26 GB (FP16)

Compute pro Token 26B FLOPS

MoE Model (z.B. Mixtral 8x7B)

Gesamtparameter 47B

Aktive Parameter 13B (27%)

Speicherbedarf 94 GB (FP16, alle 8)

Compute pro Token 26B FLOPS ✓ Gleich!

Der MoE Vorteil: Warum funktioniert das?

Sparse Activation: In einem Dense-Modell wird jeder Parameter für jeden Token verwendet. In einem MoE-Modell aktiviert der Router nur eine Teilmenge der Experten (z.B. Top-2 von 8). Dies reduziert die tatsächliche Compute linear.

Speicher- vs Compute-Trade-off: Man muss alle Experten-Parameter im Speicher halten (94 GB), nutzt aber nur 27% davon pro Token. Dies ist in großen Cluster-Umgebungen mit mehreren GPUs praktisch: Man kann Experten über verschiedene Geräte verteilen.

Spezialisierung: Mit 8 Experten können verschiedene Experten spezialisiert werden auf: Grammatik, Semantik, Code, Entitäten, Mathematik, etc. Dies ermöglicht feinere Kontrolle und bessere Performance auf spezialisierten Tasks.

Skalierungsgesetz: Nach dem Chinchilla Optimum sollte man Modellgröße und Datenmenge proportional skalieren. MoE erlaubt asymmetrische Skalierung: Man kann Parameter "günstig" hinzufügen, solange die Experten spezialisiert bleiben.

Praktischer Nutzen: Eine MoE mit 13B aktiver Compute ist schneller als ein Dense 13B Modell der gleichen Qualität, weil die zusätzlichen inaktiven Parameter trotzdem zu besserer Repräsentation führen (mehr Kapazität für verschiedene Konzepte).

Modell-Größenvergleich: Mixtral 8x7B hat 47B Parameter aber wird oft als "equivalente zu GPT-3 13B" benchmarkt (wegen 13B aktiver Parameter). DeepSeek R1 hat 671B Parameter aber nur 37B aktiv – eine 18× "Vergrößerung" mit gleicher Compute!

Modell-Vergleichstabelle

Modell	Architektur	Gesamtparameter	Aktive Parameter	Verhältnis	Release
GPT-3 DENSE	Dense Transformer	175B	175B	1:1 (100%)	2020
Mixtral 8x7B MoE	8 Expert MoE	47B	13B	3.6:1 (27%)	2023
Mixtral 8x22B MoE	8 Expert MoE	141B	39B	3.6:1 (27%)	2024
Grok-1 MoE	? Expert MoE	314B	~86B	~3.6:1	2023
DeepSeek R1 MoE	Multi-Expert MoE	671B	37B	18.1:1 (5.5%)	2024

Parameter vs Compute Effizienz

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Dense Model (z.B. GPT-3)

MoE Model (z.B. Mixtral 8x7B)

Der MoE Vorteil: Warum funktioniert das?

Modell-Vergleichstabelle