Das Vanishing-Gradient-Problem

In tiefen neuronalen Netzwerken werden Gradienten während des Backpropagation-Prozesses mit jedem Layer multipliziert. Ohne Skip Connections führt dies zu exponentiell abnehmenden Gradienten – die unteren Layer lernen kaum noch. Residual Connections schaffen eine "Gradient Highway", die direkten Gradientenfluss ermöglicht.

Steuerung

8
5

Gradienten-Stärke

Stark (≥ 0.7)
Mittel (0.3 - 0.7)
Schwach (0.1 - 0.3)
Verschwindend (< 0.1)

Ohne Residual Connections

Gradienten verschwinden exponentiell

Mit Residual Connections

Gradient Highway ermöglicht direkten Flow

Fig. 1 | Side-by-side Vergleich des Gradientenflusses während Backpropagation. Links: Traditionelles Deep Network zeigt starkes Vanishing-Gradient-Problem. Rechts: Residual Network mit Skip Connections erhält starken Gradientenfluss durch alle Layer.

Warum Gradienten verschwinden

Bei traditioneller Backpropagation werden Gradienten mit jedem Layer multipliziert:

  • Gradient wird durch Gewichte und Aktivierungsfunktionen geleitet
  • Bei tiefen Netzen: viele Multiplikationen mit Werten < 1
  • Exponentieller Zerfall: 0.8^10 ≈ 0.107
  • Untere Layer erhalten kaum noch Lernsignal

Die Lösung: Residual Connections

Skip Connections schaffen einen "Gradient Highway":

  • Direkter Pfad für Gradienten durch alle Layer
  • Formel: H(x) = F(x) + x statt nur F(x)
  • Gradient kann Skip Connection unverändert passieren
  • Ermöglicht Training von Netzwerken mit 100+ Layern