Mixture of Experts (MoE) Router Simulation

Wie das Router-Netzwerk entscheidet, welche Experten-Subnetze für jeden Token aktiviert werden – der Schluessel zu effizienten Modellen mit Billionen von Parametern.

MoE-Router wählen für jeden Token die relevantesten Experten aus. Statt alle Parameter zu aktivieren, werden nur Top-k Experten genutzt — ein Effizienz-Multiplikator, der Modelle mit Billionen von Parametern praktikabel macht.

📖 Lern-Kontext ▼

Verstehen, wie der Router-Mechanismus Experten für jeden Token auswählt
Die Top-k Auswahl und gewichtete Kombination der Expert-Outputs nachvollziehen
Den Trade-off zwischen Effizienz und Komplexität bei MoE-Architekturen kennen

Schritt 1/5 Moderne Architekturvarianten

Kapitel 2 beginnt mit MoE als fundamentale Alternative zur Dense-Architektur aus Kapitel 1. MoE ermöglicht es, mehr Parameter bei gleichem Compute zu nutzen — der Schlüssel zur Skalierung auf Billionen von Parametern.

Mixtral 8×7B nutzt nur 2 von 8 Experten pro Token: 13B aktive Parameter, aber 47B gesamt. GPT-4 verwendet vermutlich 16 Experten für ~1.76T Parameter. Ohne MoE wären solche Modellgrößen praktisch nicht trainierbar.

Router = kleines Gating-Netzwerk, das Softmax-Scores für jeden Expert berechnet
Top-k (meist k=2) aktiviert nur eine Teilmenge der Experten pro Token
Experten spezialisieren sich auf verschiedene Aspekte: Syntax, Semantik, Entitäten

Interaktive MoE-Routing Visualisierung

Top-k:

Experten:

Eingabe-Tokens (klicken zum Auswaehlen)

Router-Netzwerk & Experten-Zuweisung

Experten-Subnetze (FFN-Layer)

Tokens verarbeitet

von 8 Tokens

Aktive Parameter

25%

pro Token (k=2 von 8)

Compute-Ersparnis

vs. Dense-Modell

Load Balancing

Experten-Auslastung (Load Balancing)

💡 Wie funktioniert das Routing?

Jeder Token durchläuft das Router-Netzwerk – ein kleines neuronales Netz, das für jeden Experten einen Score berechnet. Die Top-k Experten mit den höchsten Scores werden aktiviert, ihre Outputs gewichtet kombiniert.

G(x) = Softmax(TopK(x · W_router)) · y = Σ_i∈TopK G(x)_i · E_i(x)

Fig. 1 | Sparse Mixture of Experts Routing. Das Router-Netzwerk weist jeden Token den Top-k Experten zu. Nur diese Experten werden aktiviert – bei k=2 von 8 Experten werden pro Token nur 25% der FFN-Parameter genutzt, während das Modell Zugang zu 4x mehr Parametern hat.

⚡ Warum MoE?

Mehr Parameter, weniger Compute: Mixtral 8x7B hat 47B Parameter, nutzt aber nur ~13B pro Token
Skalierbarkeit: GPT-4 nutzt vermutlich MoE für 1.76T Parameter
Spezialisierung: Experten lernen unterschiedliche Aspekte der Sprache

⚖️ Load Balancing

Problem: Ohne Balancing werden wenige Experten überlastet
Auxiliary Loss: Bestraft ungleiche Verteilung während Training
Capacity Factor: Begrenzt Tokens pro Experte (typisch: 1.25)

📊 Modelle mit MoE

Modell	Experten	Top-k	Total Params
Mixtral 8x7B	8	2	47B
DeepSeek V3	256	8	671B
Grok-1	8	2	314B
GPT-4 (vermutet)	16	2	~1.76T
Llama 4 Scout	8	2	109B
Llama 4 Maverick	128	8	400B
Llama 4 Behemoth	16	2	2T

Mixture of Experts (MoE) Router Simulation

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Verwandte Visualisierungen