Wie Gating-Mechanismen in modernen Aktivierungsfunktionen die Modell-Kapazität erhöhen
GLU erweitert lineare Transformationen mit Gating: Output = (xW + b) ⊙ σ(xV + c). Das Gate σ modelliert, welche Features relevant sind.
GELU: smooth aber keine explizite Auswahl. SwiGLU: addiert Gating-Layer → Modell kann explizit entscheiden, welche Features durchgelassen werden.
SwiGLU in Transformer: +3-5% Performance auf gleicher Modellgröße. PaLM, LLaMA, Claude verwenden SwiGLU. Gating erhöht effektive Kapazität.
Zwei separate Transformationen: eine für Aktivierung (Swish), eine für Gate (Sigmoid). Die Kombination: Swish(x₁) ⊙ σ(x₂) erlaubt nuancierte Feature-Selektion.
SwiGLU benötigt ~2× lineare Operationen verglichen mit GELU. Aber Output-Qualität rechtfertigt: höhere Performance auf gleichen FLOPs.
Neue Foundation Models (2024+) verwenden alle SwiGLU oder ähnliche Gated Variants. Einfache ReLU ist obsolet. Gating ist jetzt Baseline in SOTA.