Load Balancing Problem

Was passiert, wenn alle Tokens zu den gleichen Experten routen: Das kritische Load Balancing Problem in MoE Systemen

Load Balancing ist das zentrale Problem bei MoE: Wenn alle Tokens dieselben Experten wählen, entstehen Bottlenecks und die meisten GPUs bleiben ungenutzt. Auxiliary Loss erzwingt während des Trainings eine gleichmäßige Verteilung.

📖 Lern-Kontext ▼

Verstehen, warum ungleiche Expertenauslastung zu Effizienzverlusten führt
Den Auxiliary Loss Mechanismus zur Erzwingung von Balancing kennen
Wissen, wie Expert Collapse vermieden wird und was Token Dropping bedeutet

Schritt 1/5 Moderne Architekturvarianten

Diese Seite ergänzt die Router-Simulation mit der Trainings-Perspektive. Nachdem wir verstanden haben, wie Routing funktioniert, betrachten wir nun, warum es ohne Regularisierung zu Problemen kommt.

Ohne Balancing: 1-2 Experten überlastet, Rest ungenutzt. Die GPU-Auslastung fällt auf 15-20%. Auxiliary Loss macht ~1% des Total Loss aus, aber verhindert Expert Collapse und 2-3× längere Trainingszeiten.

Auxiliary Loss = α × Σ(P_i × E_i) bestraft ungleiche Verteilung
Expert Capacity (typisch 1.25×) limitiert Tokens pro Expert
Token Dropping bei Überlast — überzählige Tokens werden nicht verarbeitet

Fig. 1 | MoE Load Balancing Visualisierung. Links: Balanced – Tokens werden gleichmäßig auf Experten verteilt. Rechts: Imbalanced – Alle Tokens routen zu Expert 1 (Bottleneck, rote Warnung).

✓ Optimales Szenario: Balanced

Tokens werden gleichmäßig auf alle Experten verteilt. Jeder Expert verarbeitet etwa 20% der Tokens pro Layer.

Tokens pro Expert 20% je

GPU Auslastung 80% (optimal)

Durchsatz Maximal

Latenz Minimal

✗ Problem-Szenario: Imbalanced

Alle Tokens routen zu Expert 1. Das System wird zu einem Dense Model mit Kommunikations-Overhead.

Tokens auf Expert 1 80%

Tokens auf andere 5% je

GPU Auslastung Expert 1 100% (Bottleneck)

Latenz 3-5× höher

Warum ist Load Imbalance ein Problem?

GPU-Auslastung Ineffizienz: Wenn Expert 1 100% ausgelastet ist und Expert 2-8 nur 5%, dann ist die durchschnittliche Auslastung = (100 + 5 + 5 + 5 + 5 + 5 + 5 + 5) / 8 = 15.6%. Die anderen GPUs sind Idle und leisten keine Arbeit.

Bottleneck-Effekt: Expert 1 bestimmt die Gesamt-Durchsatzrate. Alle anderen Experten müssen auf Expert 1 warten. Die Latenz wird von der langsamsten Komponente dominiert (kritischer Pfad).

Netzwerk-Overhead: In verteilten Systemen (mehrere GPUs) müssen Tokens und Outputs zwischen Geräten übertragen werden. Mit Imbalance werden Netzwerk-Links zu Expert 1 gesättigt, während andere leer sind.

Router-Lernproblem: Der Router lernt, über Gradient Descent zu optimieren. Wenn der Router systematisch Top-2 Expert 1 bevorzugt, bekommt die Loss-Funktion kein Signal zur Korrektur.

Lösungsansätze: Moderne MoE-Systeme nutzen Auxiliary Loss zur Erzwingung von Balance. Zusätzliche Regularisierung: L_aux = α × (Σ_i P_i × E_i), wobei P_i = durchschnittliche Expertenwahl, E_i = Expertenauslastung.

Praktische Beobachtung: In realen Trainings kann Load Imbalance zu 2-3× längeren Training-Zeiten führen. DeepSeek und Mixtral haben eigene Strategien: Expert-Dropout während Training, Dynamic Expert Selection.

Load Balancing Problem

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

✓ Optimales Szenario: Balanced

✗ Problem-Szenario: Imbalanced

Warum ist Load Imbalance ein Problem?