Was passiert, wenn alle Tokens zu den gleichen Experten routen: Das kritische Load Balancing Problem in MoE Systemen
Load Balancing ist das zentrale Problem bei MoE: Wenn alle Tokens dieselben Experten wählen, entstehen Bottlenecks und die meisten GPUs bleiben ungenutzt. Auxiliary Loss erzwingt während des Trainings eine gleichmäßige Verteilung.
Diese Seite ergänzt die Router-Simulation mit der Trainings-Perspektive. Nachdem wir verstanden haben, wie Routing funktioniert, betrachten wir nun, warum es ohne Regularisierung zu Problemen kommt.
Ohne Balancing: 1-2 Experten überlastet, Rest ungenutzt. Die GPU-Auslastung fällt auf 15-20%. Auxiliary Loss macht ~1% des Total Loss aus, aber verhindert Expert Collapse und 2-3× längere Trainingszeiten.