0.0

Vergleich: Aktivierungsfunktionen

Alle Funktionen im Vergleich
Fig. 1 | Aktivierungsfunktionen ReLU, GELU, Swish überlagert. Der aktuelle Input-Wert (Slider) ist als vertikale Linie markiert.
Output für aktuellen Input
Fig. 2 | Die Output-Werte für den aktuellen Input-Wert, farbkodiert für jede Funktion.

Funktionen im Detail

ReLU (Rectified Linear Unit)
f(x) = max(0, x)
Die ursprüngliche Aktivierungsfunktion aus dem Original-Transformer. Einfach: Negative Werte werden auf 0 gesetzt, positive passieren durch.
Verwendet in: Transformer (2017), ursprüngliche GPT/BERT
GELU (Gaussian Error Linear Unit)
f(x) = x · Φ(x)
Sanftere Alternative zu ReLU. Nutzt die kumulative Verteilungsfunktion der Normalverteilung (Φ). Ermöglicht kleine negative Werte durchzulassen, was feinere Gradienten ermöglicht.
Verwendet in: BERT, GPT-2, GPT-3
Swish (auch SiLU)
f(x) = x · σ(x)
Glatte, selbst-gating Funktion. Der σ(x) Term (Sigmoid) wirkt wie ein Gating-Mechanismus: bei negativen x wird die Funktion "geschlossen", bei positiven "geöffnet".
Verwendet in: EfficientNet, gewisse Transformer-Varianten
SwiGLU (Swish Gated Linear Unit)
f(x) = (Swish(xW) ⊗ xV)W₂
Moderne Gate-Variante mit zwei parallelen Pfaden. Der Swish-Pfad wird element-weise mit einem linearen Pfad multipliziert. Benötigt 3 Gewichtsmatrizen statt 2, aber bessere Expressivität.
Verwendet in: Llama, PaLM, Mistral 7B, moderne State-of-Art Modelle

Schlüssel-Erkenntnisse

1
ReLU ist einfach aber problematisch: Sie "tötet" negative Aktivierungen vollständig (Dead ReLU Problem). Dies kann während Training zu Neuronen führen, die nie aktiviert werden.
2
GELU ist sanfter: Durch die Gauß-Funktion können kleine negative Werte durchfließen. Dies ermöglicht bessere Gradienten während des Backpropagation, besonders in tiefen Netzwerken.
3
Swish kombiniert Gating mit Glätte: Der Sigmoid-Term wirkt als sanfter "Ein/Aus-Schalter", während die Swish-Form stetig differenzierbar bleibt. Bessere Gradientenfluss als ReLU.
4
SwiGLU ist moderner Standard: Die Dual-Path-Architektur mit Gating ist in modernen LLMs zum Standard geworden. Sie benötigt mehr Parameter (3 statt 2 Matrizen), aber die Qualität rechtfertigt den Overhead.
5
Parameter-Trade-off: SwiGLU kompensiert die dritte Matrix durch reduzierte Hidden-Dimension (2,67× statt 4× d_model), sodass die Gesamtparameterzahl ähnlich bleibt, aber mit besserer Performance.
6
Verlauf der Aktivierungen: Beobachten Sie, wie die Funktionen sich unterschiedlich verhalten: ReLU ist linear, GELU ist S-förmig, Swish kombiniert beides. Diese Unterschiede beeinflussen Training-Stabilität und Convergence.