Schritt-für-Schritt Visualisierung wie LayerNorm einen Vektor normalisiert, skaliert und verschiebt
Layer Normalization ist die mathematische Grundlage für stabiles Training tiefer Netzwerke. Diese Live-Demo zeigt jeden Rechenschritt: Mean-Berechnung, Variance, Normalisierung und schließlich Scale (γ) und Shift (β) — die trainierbaren Parameter, die dem Modell erlauben, die optimale Aktivierungsverteilung zu lernen.
Diese Seite ergänzt die konzeptuelle Erklärung von Residual & LayerNorm mit einer interaktiven Berechnung. Eigene Vektoren eingeben und jeden Normalisierungsschritt live mitverfolgen hilft, die Mathematik intuitiv zu verstehen.
Ohne Normalisierung würden Aktivierungen in tiefen Netzwerken explodieren oder verschwinden. LayerNorm (oder RMSNorm) erscheint vor und/oder nach jeder Attention- und FFN-Schicht — typischerweise 2 × Anzahl Schichten = 64-256 Normalisierungen pro Forward-Pass.
LayerNorm stabilisiert das Training tiefer Netzwerke, indem es Aktivierungen über Features (nicht über Batch) normalisiert. Es berechnet Mean und Variance für jeden einzelnen Vektor und transformiert ihn zu Mean=0, Variance=1. Trainierbare Parameter γ (Scale) und β (Shift) erlauben dem Modell, die optimale Verteilung zu lernen.
LayerNorm:
BatchNorm:
Vereinfachte Variante von LayerNorm, verwendet in Llama, Mistral und vielen modernen LLMs:
LayerNorm hat 2 × dmodel trainierbare Parameter:
Beispiel: Bei dmodel=512 hat LayerNorm 1024 Parameter.