Wie Gating-Mechanismen in modernen Aktivierungsfunktionen die Modell-Kapazität erhöhen
SwiGLU (Swish-Gated Linear Units) ist der moderne Standard für Aktivierungsfunktionen in FFN-Schichten. Im Gegensatz zu einfachen Aktivierungen wie ReLU oder GELU nutzt SwiGLU einen expliziten Gating-Mechanismus, der dem Modell erlaubt, gezielt Informationen durchzulassen oder zu blockieren.
Im Feedforward-Netzwerk (FFN) nach dem Attention-Block bestimmt die Aktivierungsfunktion, wie Informationen transformiert werden. SwiGLU hat sich als leistungsstärkste Variante etabliert und wird in praktisch allen State-of-the-Art Modellen seit 2023 verwendet.
SwiGLU verbessert die Modell-Performance um 3-5% bei gleicher Parameterzahl. Das Gate (Sigmoid) entscheidet, welche Features relevant sind, während Swish die Aktivierung glättet. Diese Kombination erhöht die effektive Kapazität des Modells deutlich.
GLU erweitert lineare Transformationen mit Gating: Output = (xW + b) ⊙ σ(xV + c). Das Gate σ modelliert, welche Features relevant sind.
GELU: smooth aber keine explizite Auswahl. SwiGLU: addiert Gating-Layer → Modell kann explizit entscheiden, welche Features durchgelassen werden.
SwiGLU in Transformer: +3-5% Performance auf gleicher Modellgröße. PaLM, LLaMA, Claude verwenden SwiGLU. Gating erhöht effektive Kapazität.
Zwei separate Transformationen: eine für Aktivierung (Swish), eine für Gate (Sigmoid). Die Kombination: Swish(x₁) ⊙ σ(x₂) erlaubt nuancierte Feature-Selektion.
SwiGLU benötigt ~2× lineare Operationen verglichen mit GELU. Aber Output-Qualität rechtfertigt: höhere Performance auf gleichen FLOPs.
Neue Foundation Models (2024+) verwenden alle SwiGLU oder ähnliche Gated Variants. Einfache ReLU ist obsolet. Gating ist jetzt Baseline in SOTA.