Layer Normalization Live

Layer Normalization Live Demo

Schritt-für-Schritt Visualisierung wie LayerNorm einen Vektor normalisiert, skaliert und verschiebt

Layer Normalization ist die mathematische Grundlage für stabiles Training tiefer Netzwerke. Diese Live-Demo zeigt jeden Rechenschritt: Mean-Berechnung, Variance, Normalisierung und schließlich Scale (γ) und Shift (β) — die trainierbaren Parameter, die dem Modell erlauben, die optimale Aktivierungsverteilung zu lernen.

📖 Lern-Kontext ▼

Die mathematischen Schritte von LayerNorm nachvollziehen können
Verstehen, warum γ und β trainierbar sind (Flexibilität für das Modell)
Den Unterschied zwischen LayerNorm und RMSNorm kennen

Schritt 7/8 Transformer Grundlagen

Diese Seite ergänzt die konzeptuelle Erklärung von Residual & LayerNorm mit einer interaktiven Berechnung. Eigene Vektoren eingeben und jeden Normalisierungsschritt live mitverfolgen hilft, die Mathematik intuitiv zu verstehen.

Ohne Normalisierung würden Aktivierungen in tiefen Netzwerken explodieren oder verschwinden. LayerNorm (oder RMSNorm) erscheint vor und/oder nach jeder Attention- und FFN-Schicht — typischerweise 2 × Anzahl Schichten = 64-256 Normalisierungen pro Forward-Pass.

LayerNorm: x̂ = (x - μ) / √(σ² + ε), dann y = γx̂ + β
RMSNorm (moderner): vereinfacht auf y = x / RMS(x) · γ (~15% schneller)
2 × d_model Parameter pro Normalisierungsschicht (γ und β)

Was ist Layer Normalization?

LayerNorm stabilisiert das Training tiefer Netzwerke, indem es Aktivierungen über Features (nicht über Batch) normalisiert. Es berechnet Mean und Variance für jeden einzelnen Vektor und transformiert ihn zu Mean=0, Variance=1. Trainierbare Parameter γ (Scale) und β (Shift) erlauben dem Modell, die optimale Verteilung zu lernen.

LayerNorm vs BatchNorm

LayerNorm:

Normalisiert über Features (Dimensionen)
Jedes Sample einzeln
Unabhängig von Batch-Größe
Ideal für Sequenzen (NLP)

BatchNorm:

Normalisiert über Batch
Alle Samples zusammen
Abhängig von Batch-Größe
Ideal für CNNs (Vision)

RMSNorm (Modern)

Vereinfachte Variante von LayerNorm, verwendet in Llama, Mistral und vielen modernen LLMs:

RMSNorm(x) = (x / RMS(x)) · γ
RMS(x) = √(Σ x²_i / n)

Kein Mean-Subtraction (nur RMS)
Kein Shift-Parameter β
~10-15% schneller als LayerNorm
Gleiche Qualität in der Praxis

Warum Normalisierung wichtig ist

Stabilisiert Training tiefer Netzwerke
Reduziert Internal Covariate Shift
Ermöglicht höhere Learning Rates
Verbessert Gradientenfluss
Reduziert Abhängigkeit von Initialisierung

Parameter

LayerNorm hat 2 × d_model trainierbare Parameter:

γ (gamma): Scale-Parameter, meist initialisiert mit 1
β (beta): Shift-Parameter, meist initialisiert mit 0
ε (epsilon): Kleine Konstante (~10⁻⁵) für numerische Stabilität

Beispiel: Bei d_model=512 hat LayerNorm 1024 Parameter.

Layer Normalization Live Demo

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Was ist Layer Normalization?

Eingabe-Vektor

Normalisierungs-Schritte

LayerNorm vs BatchNorm

RMSNorm (Modern)

Warum Normalisierung wichtig ist

Parameter