Vanishing Gradient Problem – problem zanikającego gradientu w głębokich sieciach.

Problem zanikającego gradientu to zjawisko występujące podczas uczenia się głębokich sieci neuronowych, polegające na stopniowym zmniejszaniu się wartości gradientów w trakcie propagacji wstecznej przez kolejne warstwy sieci. W efekcie wagi w początkowych warstwach są aktualizowane w bardzo niewielkim stopniu lub wcale, co utrudnia lub uniemożliwia efektywne uczenie się tych warstw. Zjawisko to jest szczególnie nasilone w sieciach o dużej liczbie warstw oraz przy stosowaniu funkcji aktywacji, których pochodne przyjmują wartości bliskie zeru.

Konsekwencją problemu zanikającego gradientu jest spowolnienie procesu uczenia oraz zmniejszenie zdolności sieci do ekstrakcji cech złożonych na wczesnych etapach przetwarzania danych. Problem ten był szczególnie istotny w początkowej fazie rozwoju głębokiego uczenia, co ograniczało praktyczne zastosowanie bardzo głębokich architektur sieciowych. W celu przeciwdziałania zanikaniu gradientu wprowadzono m.in. specjalne funkcje aktywacji, takie jak ReLU, oraz techniki architektoniczne jak normalizacja warstw (batch normalization) czy zastosowanie mechanizmów resztkowych (residual connections).