Von ReLU zu GELU bis SwiGLU: Wie Aktivierungsfunktionen Feedforward-Netzwerken Expressivität geben
Aktivierungsfunktionen führen Nicht-Linearität in neuronale Netze ein. Ohne sie wäre selbst ein tiefes Netzwerk nur eine lineare Transformation – unfähig, komplexe Muster zu lernen.
Aktivierungsfunktionen sind Teil der Feedforward-Netzwerke (FFN), die nach jeder Attention-Schicht kommen. Die FFN verarbeitet jeden Token individuell und speichert dabei Weltwissen.
SwiGLU (Llama, GPT-4) zeigt ~1-2% bessere Performance als GELU bei gleichem Compute. Der Gating-Mechanismus entscheidet dynamisch, welche Informationen durchgelassen werden. Das FFN enthält ~⅔ aller Modellparameter.