KAPITEL 1.7 · TRANSFORMER-BAUSTEINE

Residual Connections & Layer Normalization

Wie Skip-Verbindungen tiefe Netzwerke trainierbar machen und Normalisierung die Stabilität sichert

Residual Connections und Layer Normalization sind die unsichtbaren Helden tiefer Netzwerke. Sie ermöglichen das Training von Modellen mit 100+ Schichten, indem sie Gradienten stabil halten.

📖 Lern-Kontext ▼

Verstehen, warum tiefe Netze ohne Residuals schwer trainierbar sind
Die Funktion von Skip Connections (x + f(x)) nachvollziehen
Pre-Layer-Norm vs. Post-Layer-Norm unterscheiden können

Schritt 7/8 Transformer Grundlagen

Residuals und LayerNorm sind die "Infrastruktur", die Attention (4-5) und FFN (6) trainierbar macht. Im vollständigen Transformer-Block (Schritt 8) siehst du, wie alles zusammenspielt.

Ohne Residuals: Gradient Vanishing bei tiefen Netzen. Die Skip-Verbindung x + f(x) stellt sicher, dass Gradienten direkt durch das Netzwerk fließen können. Pre-Layer-Norm (Norm vor Attention/FFN) ist moderner Standard, da stabiler als Post-LN. RMSNorm ist effizienter als klassische LayerNorm.

Skip Connection: y = x + f(x) erhält Gradienten auch bei 100+ Layers
Pre-Layer-Norm stabiler als Post-LN (moderner Standard)
RMSNorm: Nur Varianz-Normalisierung, ~10% schneller als LayerNorm

Das Problem: Tiefe Netzwerke

Warum können wir nicht einfach mehr Layer stapeln? Historisch gab es zwei fundamentale Probleme:

Vanishing Gradients: Mit vielen Layern werden Gradienten exponentiell kleiner, der Lernprozess stagniert
Internal Covariate Shift: Die Eingabeverteilung jeder Schicht ändert sich während des Trainings – Instabilität
Numerische Instabilität: Ohne Normalisierung können Aktivierungen explodieren oder gegen Null gehen

💡 Lösung: Residual Connections (Skip-Connections) + Normalisierung. Zusammen ermöglichen sie tiefe Netzwerke (50-100+ Layer) mit stabilem Training.

Residual Connections – Skip-Verbindungen

Eine Residual Connection ist eine direkte Verbindung, die den Input um eine Transformation herum führt:

Residual Connection Formel:

x' = x + f(x)

Wobei:

• x = Input

• f(x) = Transformation (z.B. Attention oder FFN)

• x' = Output mit zusätzlichem Signal vom Input

Visualisierungsmodus

Fig. 1 | Residual Connections: Warum Skip-Verbindungen tiefe Netzwerke ermöglichen

Warum Residual Connections funktionieren:

Gradient Highway: Der Gradient hat einen direkten Pfad zurück zum Input – keine Multiplikation mit vielen Gewichten
Identitäts-Annahme: Wenn f(x) ≈ 0, dann ist x' ≈ x – das Netzwerk kann "Skip" beschließen
Additive Modifikation: Statt x völlig zu ersetzen, wird nur eine kleine Änderung hinzugefügt
Empirisches Resultat: Mit Skip-Connections können wir 50-100+ Layer trainieren, ohne dass Gradienten verschwinden

Layer Normalization – Stabilisierung

Normalisierung bedeutet: Die Aktivierungen pro Token auf Mittelwert 0 und Standardabweichung 1 bringen. Dies stabilisiert das Training erheblich.

Standard LayerNorm:

Layer Normalization Formel:

LayerNorm(x) = γ ⊙ (x - μ) / √(σ² + ε) + β

Wobei:

• μ = Mean über alle d Dimensionen pro Token

• σ² = Varianz über d Dimensionen

• γ, β = Trainierbare Skalierungs- und Versatz-Parameter

• ε = Kleine Konstante (z.B. 1e-6) für numerische Stabilität

RMSNorm – Moderne Variante:

Llama, Mistral und andere moderne Modelle nutzen RMSNorm – eine vereinfachte Version ohne Mean-Subtraktion:

RMSNorm Formel:

RMSNorm(x) = γ ⊙ x / √(mean(x²) + ε)

Vorteile:

• Schneller (weniger Operationen)

• Äquivalente Performance zu LayerNorm

• Weniger Speicher

Normalisierungs-Ansatz

Fig. 2 | Vergleich: Post-LayerNorm vs. Pre-LayerNorm Architektur und deren Position im Block

Post-LayerNorm (Original)

❌ Braucht Warmup-Phase (Learning-Rate-Annealing)
❌ Instabiler bei vielen Layern
✅ Output normalisiert
✅ Historischer Standard (Original Transformer)

Pre-LayerNorm (Modern)

✅ Stabiles Training ohne Warmup
✅ Bessere Konvergenz mit vielen Layern
✅ Einfachere Tuning-Parameter
✅ Standard in GPT-3, Llama, Claude

Transformer-Block: Zusammenspiel

Ein moderner Transformer-Block nutzt Residual Connections UND Pre-LayerNorm zusammen. Hier ist der vollständige Datenfluss:

Fig. 3 | Kompletter Transformer-Block mit Pre-LayerNorm + Residual Connections (Llama-Style)

Block-Logik (Pre-LayerNorm Style):

h₁ = x + Attention(RMSNorm(x))
h₂ = h₁ + SwiGLU(RMSNorm(h₁))
return h₂

Block-Komponenten:

Komponente	Funktion	Warum nötig
RMSNorm(x)	Normalisiert Input auf RMS=1	Stabilisiert Attention-Input, verhindert numerische Instabilität
Attention(norm_x)	Berechnet Kopf-Interaktionen	Verknüpft verschiedene Token semantisch
+ (Residual)	Addiert Original Input	Gradient-Highway, bewahrt Original-Information
RMSNorm(h₁)	Normalisiert vor FFN	Stabilisiert FFN-Input
SwiGLU(norm_h)	Nicht-lineare Projektion mit Gating	Erhöht Modellkapazität, lernbar gating
+ (Residual)	Addiert h₁ zurück	Gradient-Highway, bewahrt Attention-Output

Section 5: Key Insights

Kernerkenntnisse

1. Residuals sind nicht "Abfall"

Skip-Connections sind nicht eine Schwachstelle oder Backup-Plan. Sie sind ein primärer Designprinzip: Das Netzwerk muss nur die Änderung lernen, nicht die vollständige Transformation.

2. Normalisierung = Trainings-Stabilisator

Ohne Normalisierung ändern sich die Aktivierungsverteilungen ständig – das Netzwerk müsste sich ständig anpassen. Mit Normalisierung bleibt die Verteilung stabil und das Lernen wird effizienter.

3. Pre-LayerNorm ist ein Game-Changer

Durch Pre-Normalisierung wird Training ohne Warmup möglich. Das ist nicht nur praktisch, sondern ermöglicht auch tiefere Modelle – moderne Modelle nutzen alle Pre-LayerNorm.

4. RMSNorm zeigt: Einfacher ist oft besser

RMSNorm verzichtet auf Mean-Subtraktion – ist aber gleich schnell und gleich effektiv. Dies zeigt: Nicht alle mathematischen Subtilitäten sind nötig. Empirisch zählt, was funktioniert.

5. Die Kombination ist essentiell

Residuals OHNE Normalisierung = instabil. Normalisierung OHNE Residuals = begrenzte Tiefe. Zusammen: Stabile, tiefe, effiziente Netzwerke (50-100+ Layer).

6. Tiefe hat Kosten

Mehr Layer = mehr Parameter, mehr Compute. Aber mit Residuals + Normalisierung ist die Skalierung vorhersagbar und stabil – nicht chaotisch wie ohne diese Techniken.

Moderne Modelle & Konfiguration

Alle großen modernen Sprachmodelle nutzen Residual Connections + Pre-LayerNorm. Hier sind die typischen Konfigurationen:

Modell	Normalisierung	Residual-Typ	Layers	d_model
GPT-2	LayerNorm	Post	12-48	768-1600
GPT-3	LayerNorm	Post	96	12,288
PaLM	RMSNorm	Pre	118	18,432
Llama 2 70B	RMSNorm	Pre	80	8,192
Llama 3 70B	RMSNorm	Pre	80	8,192
Claude 3	LayerNorm (vermutlich)	Pre	~100+	~8K-10K
Mistral 7B	RMSNorm	Pre	32	4,096

🔍 Beobachtung: Alle modernen Modelle (2022+) nutzen Pre-LayerNorm. Ältere Modelle (GPT-2, GPT-3) nutzten Post-LayerNorm. Das ist ein Zeichen der Evolution: Pre-LayerNorm ist überlegen.