SwiGLU - Gated Activation Functions

SwiGLU: Gated Linear Units

Wie Gating-Mechanismen in modernen Aktivierungsfunktionen die Modell-Kapazität erhöhen

SwiGLU (Swish-Gated Linear Units) ist der moderne Standard für Aktivierungsfunktionen in FFN-Schichten. Im Gegensatz zu einfachen Aktivierungen wie ReLU oder GELU nutzt SwiGLU einen expliziten Gating-Mechanismus, der dem Modell erlaubt, gezielt Informationen durchzulassen oder zu blockieren.

📖 Lern-Kontext ▼

Verstehen, wie Gating-Mechanismen Informationsfluss steuern
Die Unterschiede zwischen ReLU, GELU und SwiGLU kennen
Wissen, warum SwiGLU in modernen LLMs Standard ist (PaLM, Llama, Claude)

Schritt 6/8 Transformer Grundlagen

Im Feedforward-Netzwerk (FFN) nach dem Attention-Block bestimmt die Aktivierungsfunktion, wie Informationen transformiert werden. SwiGLU hat sich als leistungsstärkste Variante etabliert und wird in praktisch allen State-of-the-Art Modellen seit 2023 verwendet.

SwiGLU verbessert die Modell-Performance um 3-5% bei gleicher Parameterzahl. Das Gate (Sigmoid) entscheidet, welche Features relevant sind, während Swish die Aktivierung glättet. Diese Kombination erhöht die effektive Kapazität des Modells deutlich.

SwiGLU = Swish(xW) ⊙ σ(xV) — zwei parallele Transformationen
Gate σ(x) ∈ [0,1] steuert explizit den Informationsfluss
Kostet ~2× FLOPs vs. GELU, aber höhere Performance pro FLOP

Gated Linear Units (GLU)

GLU erweitert lineare Transformationen mit Gating: Output = (xW + b) ⊙ σ(xV + c). Das Gate σ modelliert, welche Features relevant sind.

SwiGLU vs GELU

GELU: smooth aber keine explizite Auswahl. SwiGLU: addiert Gating-Layer → Modell kann explizit entscheiden, welche Features durchgelassen werden.

Empirische Gewinne

SwiGLU in Transformer: +3-5% Performance auf gleicher Modellgröße. PaLM, LLaMA, Claude verwenden SwiGLU. Gating erhöht effektive Kapazität.

Gating Mechanismus

Zwei separate Transformationen: eine für Aktivierung (Swish), eine für Gate (Sigmoid). Die Kombination: Swish(x₁) ⊙ σ(x₂) erlaubt nuancierte Feature-Selektion.

Rechenaufwand

SwiGLU benötigt ~2× lineare Operationen verglichen mit GELU. Aber Output-Qualität rechtfertigt: höhere Performance auf gleichen FLOPs.

Moderne Standard

Neue Foundation Models (2024+) verwenden alle SwiGLU oder ähnliche Gated Variants. Einfache ReLU ist obsolet. Gating ist jetzt Baseline in SOTA.

SwiGLU: Gated Linear Units

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

SwiGLU Aktivierungsfunktion

Gate-Visualisierung