Wie das Router-Netzwerk entscheidet, welche Experten-Subnetze für jeden Token aktiviert werden – der Schluessel zu effizienten Modellen mit Billionen von Parametern.
MoE-Router wählen für jeden Token die relevantesten Experten aus. Statt alle Parameter zu aktivieren, werden nur Top-k Experten genutzt — ein Effizienz-Multiplikator, der Modelle mit Billionen von Parametern praktikabel macht.
Kapitel 2 beginnt mit MoE als fundamentale Alternative zur Dense-Architektur aus Kapitel 1. MoE ermöglicht es, mehr Parameter bei gleichem Compute zu nutzen — der Schlüssel zur Skalierung auf Billionen von Parametern.
Mixtral 8×7B nutzt nur 2 von 8 Experten pro Token: 13B aktive Parameter, aber 47B gesamt. GPT-4 verwendet vermutlich 16 Experten für ~1.76T Parameter. Ohne MoE wären solche Modellgrößen praktisch nicht trainierbar.
| Modell | Experten | Top-k | Total Params |
|---|---|---|---|
| Mixtral 8x7B | 8 | 2 | 47B |
| DeepSeek V3 | 256 | 8 | 671B |
| Grok-1 | 8 | 2 | 314B |
| GPT-4 (vermutet) | 16 | 2 | ~1.76T |
| Llama 4 Scout | 8 | 2 | 109B |
| Llama 4 Maverick | 128 | 8 | 400B |
| Llama 4 Behemoth | 16 | 2 | 2T |