SwiGLU Aktivierungsfunktion

Output = SwiGLU(x) = Swish(xW + b) ⊙ (xV + c)

Gate-Visualisierung

Gate = σ(xV + c) ∈ [0, 1]

Gated Linear Units (GLU)

GLU erweitert lineare Transformationen mit Gating: Output = (xW + b) ⊙ σ(xV + c). Das Gate σ modelliert, welche Features relevant sind.

SwiGLU vs GELU

GELU: smooth aber keine explizite Auswahl. SwiGLU: addiert Gating-Layer → Modell kann explizit entscheiden, welche Features durchgelassen werden.

Empirische Gewinne

SwiGLU in Transformer: +3-5% Performance auf gleicher Modellgröße. PaLM, LLaMA, Claude verwenden SwiGLU. Gating erhöht effektive Kapazität.

Gating Mechanismus

Zwei separate Transformationen: eine für Aktivierung (Swish), eine für Gate (Sigmoid). Die Kombination: Swish(x₁) ⊙ σ(x₂) erlaubt nuancierte Feature-Selektion.

Rechenaufwand

SwiGLU benötigt ~2× lineare Operationen verglichen mit GELU. Aber Output-Qualität rechtfertigt: höhere Performance auf gleichen FLOPs.

Moderne Standard

Neue Foundation Models (2024+) verwenden alle SwiGLU oder ähnliche Gated Variants. Einfache ReLU ist obsolet. Gating ist jetzt Baseline in SOTA.