Exploding Gradient Problem – problem gwałtownie rosnącego gradientu.

Jest to zjawisko występujące podczas trenowania sieci neuronowych, zwłaszcza głębokich lub rekurencyjnych, polegające na gwałtownym wzroście wartości gradientów podczas propagacji wstecznej. W efekcie, wartości wag modelu ulegają nadmiernie dużym zmianom, co prowadzi do niestabilności procesu uczenia, a często także do pojawienia się wartości numerycznie niekontrolowanych (np. nieskończoności lub NaN). Problem ten utrudnia zbieżność algorytmu i może znacznie obniżyć jakość otrzymanego modelu.

Przyczyny tego zjawiska związane są z wielokrotnym mnożeniem macierzy podczas propagacji gradientu przez kolejne warstwy sieci, co może prowadzić do eksplozji wartości liczb, zwłaszcza gdy wartości wag lub parametry aktywacji nie są odpowiednio skalibrowane. Rozwiązania problemu gwałtownie rosnącego gradientu obejmują techniki takie jak przycinanie gradientów (gradient clipping), stosowanie odpowiednich funkcji aktywacji, normalizację parametrów czy architektury zaprojektowane specjalnie z myślą o stabilnym uczeniu, np. długą krótkotrwałą pamięć (LSTM). Zapobieganie tej sytuacji jest kluczowe dla efektywnego i stabilnego trenowania głębokich sieci neuronowych.