ReLU (Rectified Linear Unit)
f(x) = max(0, x)
Verwendet in: Transformer (2017), ursprüngliche GPT/BERT
GELU (Gaussian Error Linear Unit)
f(x) = x · Φ(x)
Sanftere Alternative zu ReLU. Nutzt die kumulative Verteilungsfunktion der Normalverteilung (Φ). Ermöglicht kleine negative Werte durchzulassen, was feinere Gradienten ermöglicht.
Verwendet in: BERT, GPT-2, GPT-3
Swish (auch SiLU)
f(x) = x · σ(x)
Glatte, selbst-gating Funktion. Der σ(x) Term (Sigmoid) wirkt wie ein Gating-Mechanismus: bei negativen x wird die Funktion "geschlossen", bei positiven "geöffnet".
Verwendet in: EfficientNet, gewisse Transformer-Varianten
SwiGLU (Swish Gated Linear Unit)
f(x) = (Swish(xW) ⊗ xV)W₂
Moderne Gate-Variante mit zwei parallelen Pfaden. Der Swish-Pfad wird element-weise mit einem linearen Pfad multipliziert. Benötigt 3 Gewichtsmatrizen statt 2, aber bessere Expressivität.
Verwendet in: Llama, PaLM, Mistral 7B, moderne State-of-Art Modelle