Gradient Flow Vergleich

Visualisierung des Vanishing-Gradient-Problems und wie Residual Connections den Gradientenfluss in tiefen Netzwerken ermöglichen

Gradient Flow ist das zentrale Problem beim Training tiefer Netze. Ohne Skip Connections verschwinden Gradienten exponentiell – mit ihnen können Modelle mit 100+ Schichten trainiert werden.

📖 Lern-Kontext ▼

Das Vanishing-Gradient-Problem visuell nachvollziehen
Verstehen, wie Skip Connections das Problem lösen
Den "Gradient Highway" durch Residuals erkennen

Schritt 7/8 Transformer Grundlagen

Diese Visualisierung ergänzt Residual & LayerNorm (1.7) mit einer dynamischen Darstellung des Gradientenflusses während des Trainings.

Ohne Residuals würden die unteren Schichten eines tiefen Netzes praktisch nicht lernen. Die Skip Connection y = x + f(x) garantiert, dass Gradienten immer einen direkten Pfad haben – auch bei 128 Schichten.

Ohne Skip: Gradient × Layer-Gewichte bei jedem Layer → exponentielles Verschwinden
Mit Skip: Gradient kann direkt fließen (= 1) + Layer-Beitrag
Ermöglicht Training von 100+ Layer Modellen

Das Vanishing-Gradient-Problem

In tiefen neuronalen Netzwerken werden Gradienten während des Backpropagation-Prozesses mit jedem Layer multipliziert. Ohne Skip Connections führt dies zu exponentiell abnehmenden Gradienten – die unteren Layer lernen kaum noch. Residual Connections schaffen eine "Gradient Highway", die direkten Gradientenfluss ermöglicht.

Warum Gradienten verschwinden

Bei traditioneller Backpropagation werden Gradienten mit jedem Layer multipliziert:

Gradient wird durch Gewichte und Aktivierungsfunktionen geleitet
Bei tiefen Netzen: viele Multiplikationen mit Werten < 1
Exponentieller Zerfall: 0.8^10 ≈ 0.107
Untere Layer erhalten kaum noch Lernsignal

Die Lösung: Residual Connections

Skip Connections schaffen einen "Gradient Highway":

Direkter Pfad für Gradienten durch alle Layer
Formel: H(x) = F(x) + x statt nur F(x)
Gradient kann Skip Connection unverändert passieren
Ermöglicht Training von Netzwerken mit 100+ Layern

Gradient Flow Vergleich

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Das Vanishing-Gradient-Problem

Steuerung

Gradienten-Stärke

Ohne Residual Connections

Mit Residual Connections

Warum Gradienten verschwinden

Die Lösung: Residual Connections