KAPITEL 1.6 · FEEDFORWARD NETWORKS

Aktivierungsfunktionen

Von ReLU zu GELU bis SwiGLU: Wie Aktivierungsfunktionen Feedforward-Netzwerken Expressivität geben

Aktivierungsfunktionen führen Nicht-Linearität in neuronale Netze ein. Ohne sie wäre selbst ein tiefes Netzwerk nur eine lineare Transformation – unfähig, komplexe Muster zu lernen.

📖 Lern-Kontext ▼

Verstehen, warum Nicht-Linearität für tiefe Netze essentiell ist
Die Unterschiede zwischen ReLU, GELU und SwiGLU erkennen
Nachvollziehen, warum SwiGLU zum Standard in modernen LLMs wurde

Schritt 6/8 Transformer Grundlagen

Aktivierungsfunktionen sind Teil der Feedforward-Netzwerke (FFN), die nach jeder Attention-Schicht kommen. Die FFN verarbeitet jeden Token individuell und speichert dabei Weltwissen.

SwiGLU (Llama, GPT-4) zeigt ~1-2% bessere Performance als GELU bei gleichem Compute. Der Gating-Mechanismus entscheidet dynamisch, welche Informationen durchgelassen werden. Das FFN enthält ~⅔ aller Modellparameter.

ReLU: max(0, x) – einfach, aber "dead neurons" Problem
GELU: glatte Aktivierung, GPT-2/BERT Standard
SwiGLU: Gated Linear Unit, moderner Standard (Llama, GPT-4)

Input Wert (x)

0.0

Vergleich: Aktivierungsfunktionen

Alle Funktionen im Vergleich

Fig. 1 | Aktivierungsfunktionen ReLU, GELU, Swish überlagert. Der aktuelle Input-Wert (Slider) ist als vertikale Linie markiert.

Output für aktuellen Input

Fig. 2 | Die Output-Werte für den aktuellen Input-Wert, farbkodiert für jede Funktion.

Funktionen im Detail

ReLU (Rectified Linear Unit)

f(x) = max(0, x)

Die ursprüngliche Aktivierungsfunktion aus dem Original-Transformer. Einfach: Negative Werte werden auf 0 gesetzt, positive passieren durch.

Verwendet in: Transformer (2017), ursprüngliche GPT/BERT

GELU (Gaussian Error Linear Unit)

f(x) = x · Φ(x)

Sanftere Alternative zu ReLU. Nutzt die kumulative Verteilungsfunktion der Normalverteilung (Φ). Ermöglicht kleine negative Werte durchzulassen, was feinere Gradienten ermöglicht.

Verwendet in: BERT, GPT-2, GPT-3

Swish (auch SiLU)

f(x) = x · σ(x)

Glatte, selbst-gating Funktion. Der σ(x) Term (Sigmoid) wirkt wie ein Gating-Mechanismus: bei negativen x wird die Funktion "geschlossen", bei positiven "geöffnet".

Verwendet in: EfficientNet, gewisse Transformer-Varianten

SwiGLU (Swish Gated Linear Unit)

f(x) = (Swish(xW) ⊗ xV)W₂

Moderne Gate-Variante mit zwei parallelen Pfaden. Der Swish-Pfad wird element-weise mit einem linearen Pfad multipliziert. Benötigt 3 Gewichtsmatrizen statt 2, aber bessere Expressivität.

Verwendet in: Llama, PaLM, Mistral 7B, moderne State-of-Art Modelle

Schlüssel-Erkenntnisse

ReLU ist einfach aber problematisch: Sie "tötet" negative Aktivierungen vollständig (Dead ReLU Problem). Dies kann während Training zu Neuronen führen, die nie aktiviert werden.

GELU ist sanfter: Durch die Gauß-Funktion können kleine negative Werte durchfließen. Dies ermöglicht bessere Gradienten während des Backpropagation, besonders in tiefen Netzwerken.

Swish kombiniert Gating mit Glätte: Der Sigmoid-Term wirkt als sanfter "Ein/Aus-Schalter", während die Swish-Form stetig differenzierbar bleibt. Bessere Gradientenfluss als ReLU.

SwiGLU ist moderner Standard: Die Dual-Path-Architektur mit Gating ist in modernen LLMs zum Standard geworden. Sie benötigt mehr Parameter (3 statt 2 Matrizen), aber die Qualität rechtfertigt den Overhead.

Parameter-Trade-off: SwiGLU kompensiert die dritte Matrix durch reduzierte Hidden-Dimension (2,67× statt 4× d_model), sodass die Gesamtparameterzahl ähnlich bleibt, aber mit besserer Performance.

Verlauf der Aktivierungen: Beobachte, wie die Funktionen sich unterschiedlich verhalten: ReLU ist linear, GELU ist S-förmig, Swish kombiniert beides. Diese Unterschiede beeinflussen Training-Stabilität und Convergence.

Aktivierungsfunktionen

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Vergleich: Aktivierungsfunktionen

Funktionen im Detail

Schlüssel-Erkenntnisse