Visualisierung des Vanishing-Gradient-Problems und wie Residual Connections den Gradientenfluss in tiefen Netzwerken ermöglichen
Gradient Flow ist das zentrale Problem beim Training tiefer Netze. Ohne Skip Connections verschwinden Gradienten exponentiell – mit ihnen können Modelle mit 100+ Schichten trainiert werden.
Diese Visualisierung ergänzt Residual & LayerNorm (1.7) mit einer dynamischen Darstellung des Gradientenflusses während des Trainings.
Ohne Residuals würden die unteren Schichten eines tiefen Netzes praktisch nicht lernen. Die Skip Connection y = x + f(x) garantiert, dass Gradienten immer einen direkten Pfad haben – auch bei 128 Schichten.
In tiefen neuronalen Netzwerken werden Gradienten während des Backpropagation-Prozesses mit jedem Layer multipliziert. Ohne Skip Connections führt dies zu exponentiell abnehmenden Gradienten – die unteren Layer lernen kaum noch. Residual Connections schaffen eine "Gradient Highway", die direkten Gradientenfluss ermöglicht.
Gradienten verschwinden exponentiell
Gradient Highway ermöglicht direkten Flow
Bei traditioneller Backpropagation werden Gradienten mit jedem Layer multipliziert:
Skip Connections schaffen einen "Gradient Highway":