Das Problem: Tiefe Netzwerke

Warum können wir nicht einfach mehr Layer stapeln? Historisch gab es zwei fundamentale Probleme:

💡 Lösung: Residual Connections (Skip-Connections) + Normalisierung. Zusammen ermöglichen sie tiefe Netzwerke (50-100+ Layer) mit stabilem Training.

Residual Connections – Skip-Verbindungen

Eine Residual Connection ist eine direkte Verbindung, die den Input um eine Transformation herum führt:

Residual Connection Formel:
x' = x + f(x)

Wobei:
• x = Input
• f(x) = Transformation (z.B. Attention oder FFN)
• x' = Output mit zusätzlichem Signal vom Input
Fig. 1 | Residual Connections: Warum Skip-Verbindungen tiefe Netzwerke ermöglichen

Warum Residual Connections funktionieren:

Layer Normalization – Stabilisierung

Normalisierung bedeutet: Die Aktivierungen pro Token auf Mittelwert 0 und Standardabweichung 1 bringen. Dies stabilisiert das Training erheblich.

Standard LayerNorm:

Layer Normalization Formel:
LayerNorm(x) = γ ⊙ (x - μ) / √(σ² + ε) + β

Wobei:
• μ = Mean über alle d Dimensionen pro Token
• σ² = Varianz über d Dimensionen
• γ, β = Trainierbare Skalierungs- und Versatz-Parameter
• ε = Kleine Konstante (z.B. 1e-6) für numerische Stabilität

RMSNorm – Moderne Variante:

Llama, Mistral und andere moderne Modelle nutzen RMSNorm – eine vereinfachte Version ohne Mean-Subtraktion:

RMSNorm Formel:
RMSNorm(x) = γ ⊙ x / √(mean(x²) + ε)

Vorteile:
• Schneller (weniger Operationen)
• Äquivalente Performance zu LayerNorm
• Weniger Speicher
Fig. 2 | Vergleich: Post-LayerNorm vs. Pre-LayerNorm Architektur und deren Position im Block

Post-LayerNorm (Original)

  • ❌ Braucht Warmup-Phase (Learning-Rate-Annealing)
  • ❌ Instabiler bei vielen Layern
  • ✅ Output normalisiert
  • ✅ Historischer Standard (Original Transformer)

Pre-LayerNorm (Modern)

  • ✅ Stabiles Training ohne Warmup
  • ✅ Bessere Konvergenz mit vielen Layern
  • ✅ Einfachere Tuning-Parameter
  • ✅ Standard in GPT-3, Llama, Claude

Transformer-Block: Zusammenspiel

Ein moderner Transformer-Block nutzt Residual Connections UND Pre-LayerNorm zusammen. Hier ist der vollständige Datenfluss:

Fig. 3 | Kompletter Transformer-Block mit Pre-LayerNorm + Residual Connections (Llama-Style)
Block-Logik (Pre-LayerNorm Style):
h₁ = x + Attention(RMSNorm(x))
h₂ = h₁ + SwiGLU(RMSNorm(h₁))
return h₂

Block-Komponenten:

Komponente Funktion Warum nötig
RMSNorm(x) Normalisiert Input auf RMS=1 Stabilisiert Attention-Input, verhindert numerische Instabilität
Attention(norm_x) Berechnet Kopf-Interaktionen Verknüpft verschiedene Token semantisch
+ (Residual) Addiert Original Input Gradient-Highway, bewahrt Original-Information
RMSNorm(h₁) Normalisiert vor FFN Stabilisiert FFN-Input
SwiGLU(norm_h) Nicht-lineare Projektion mit Gating Erhöht Modellkapazität, lernbar gating
+ (Residual) Addiert h₁ zurück Gradient-Highway, bewahrt Attention-Output
Section 5: Key Insights

Kernerkenntnisse

1. Residuals sind nicht "Abfall"

Skip-Connections sind nicht eine Schwachstelle oder Backup-Plan. Sie sind ein primärer Designprinzip: Das Netzwerk muss nur die Änderung lernen, nicht die vollständige Transformation.

2. Normalisierung = Trainings-Stabilisator

Ohne Normalisierung ändern sich die Aktivierungsverteilungen ständig – das Netzwerk müsste sich ständig anpassen. Mit Normalisierung bleibt die Verteilung stabil und das Lernen wird effizienter.

3. Pre-LayerNorm ist ein Game-Changer

Durch Pre-Normalisierung wird Training ohne Warmup möglich. Das ist nicht nur praktisch, sondern ermöglicht auch tiefere Modelle – moderne Modelle nutzen alle Pre-LayerNorm.

4. RMSNorm zeigt: Einfacher ist oft besser

RMSNorm verzichtet auf Mean-Subtraktion – ist aber gleich schnell und gleich effektiv. Dies zeigt: Nicht alle mathematischen Subtilitäten sind nötig. Empirisch zählt, was funktioniert.

5. Die Kombination ist essentiell

Residuals OHNE Normalisierung = instabil. Normalisierung OHNE Residuals = begrenzte Tiefe. Zusammen: Stabile, tiefe, effiziente Netzwerke (50-100+ Layer).

6. Tiefe hat Kosten

Mehr Layer = mehr Parameter, mehr Compute. Aber mit Residuals + Normalisierung ist die Skalierung vorhersagbar und stabil – nicht chaotisch wie ohne diese Techniken.

Moderne Modelle & Konfiguration

Alle großen modernen Sprachmodelle nutzen Residual Connections + Pre-LayerNorm. Hier sind die typischen Konfigurationen:

Modell Normalisierung Residual-Typ Layers d_model
GPT-2 LayerNorm Post 12-48 768-1600
GPT-3 LayerNorm Post 96 12,288
PaLM RMSNorm Pre 118 18,432
Llama 2 70B RMSNorm Pre 80 8,192
Llama 3 70B RMSNorm Pre 80 8,192
Claude 3 LayerNorm (vermutlich) Pre ~100+ ~8K-10K
Mistral 7B RMSNorm Pre 32 4,096
🔍 Beobachtung: Alle modernen Modelle (2022+) nutzen Pre-LayerNorm. Ältere Modelle (GPT-2, GPT-3) nutzten Post-LayerNorm. Das ist ein Zeichen der Evolution: Pre-LayerNorm ist überlegen.