Wie Skip-Verbindungen tiefe Netzwerke trainierbar machen und Normalisierung die Stabilität sichert
Warum können wir nicht einfach mehr Layer stapeln? Historisch gab es zwei fundamentale Probleme:
Eine Residual Connection ist eine direkte Verbindung, die den Input um eine Transformation herum führt:
Normalisierung bedeutet: Die Aktivierungen pro Token auf Mittelwert 0 und Standardabweichung 1 bringen. Dies stabilisiert das Training erheblich.
Llama, Mistral und andere moderne Modelle nutzen RMSNorm – eine vereinfachte Version ohne Mean-Subtraktion:
Ein moderner Transformer-Block nutzt Residual Connections UND Pre-LayerNorm zusammen. Hier ist der vollständige Datenfluss:
| Komponente | Funktion | Warum nötig |
|---|---|---|
| RMSNorm(x) | Normalisiert Input auf RMS=1 | Stabilisiert Attention-Input, verhindert numerische Instabilität |
| Attention(norm_x) | Berechnet Kopf-Interaktionen | Verknüpft verschiedene Token semantisch |
| + (Residual) | Addiert Original Input | Gradient-Highway, bewahrt Original-Information |
| RMSNorm(h₁) | Normalisiert vor FFN | Stabilisiert FFN-Input |
| SwiGLU(norm_h) | Nicht-lineare Projektion mit Gating | Erhöht Modellkapazität, lernbar gating |
| + (Residual) | Addiert h₁ zurück | Gradient-Highway, bewahrt Attention-Output |
Skip-Connections sind nicht eine Schwachstelle oder Backup-Plan. Sie sind ein primärer Designprinzip: Das Netzwerk muss nur die Änderung lernen, nicht die vollständige Transformation.
Ohne Normalisierung ändern sich die Aktivierungsverteilungen ständig – das Netzwerk müsste sich ständig anpassen. Mit Normalisierung bleibt die Verteilung stabil und das Lernen wird effizienter.
Durch Pre-Normalisierung wird Training ohne Warmup möglich. Das ist nicht nur praktisch, sondern ermöglicht auch tiefere Modelle – moderne Modelle nutzen alle Pre-LayerNorm.
RMSNorm verzichtet auf Mean-Subtraktion – ist aber gleich schnell und gleich effektiv. Dies zeigt: Nicht alle mathematischen Subtilitäten sind nötig. Empirisch zählt, was funktioniert.
Residuals OHNE Normalisierung = instabil. Normalisierung OHNE Residuals = begrenzte Tiefe. Zusammen: Stabile, tiefe, effiziente Netzwerke (50-100+ Layer).
Mehr Layer = mehr Parameter, mehr Compute. Aber mit Residuals + Normalisierung ist die Skalierung vorhersagbar und stabil – nicht chaotisch wie ohne diese Techniken.
Alle großen modernen Sprachmodelle nutzen Residual Connections + Pre-LayerNorm. Hier sind die typischen Konfigurationen:
| Modell | Normalisierung | Residual-Typ | Layers | d_model |
|---|---|---|---|---|
| GPT-2 | LayerNorm | Post | 12-48 | 768-1600 |
| GPT-3 | LayerNorm | Post | 96 | 12,288 |
| PaLM | RMSNorm | Pre | 118 | 18,432 |
| Llama 2 70B | RMSNorm | Pre | 80 | 8,192 |
| Llama 3 70B | RMSNorm | Pre | 80 | 8,192 |
| Claude 3 | LayerNorm (vermutlich) | Pre | ~100+ | ~8K-10K |
| Mistral 7B | RMSNorm | Pre | 32 | 4,096 |