ReLU – najpopularniejsza funkcja aktywacji.

ReLU (ang. Rectified Linear Unit) to funkcja aktywacji szeroko stosowana w sieciach neuronowych, zwłaszcza w głębokim uczeniu maszynowym. Jej działanie polega na zwracaniu wartości wejściowej, jeśli jest ona dodatnia, natomiast zerze, gdy jest ujemna lub równa zeru. Matematycznie funkcję tę można zapisać jako f(x) = max(0, x). Prostota tej funkcji przyczynia się do jej popularności, ponieważ pozwala na szybkie i efektywne obliczenia podczas procesów trenowania modeli.

Funkcja ReLU ma istotne zalety, które sprawiają, że jest najczęściej wybieraną funkcją aktywacji w sieciach neuronowych. Przede wszystkim zapobiega problemowi zanikania gradientu, który często występuje przy stosowaniu tradycyjnych funkcji nieliniowych, takich jak sigmoida czy tangens hiperboliczny. Dzięki temu warstwy ukryte sieci mogą efektywniej uczyć się i propagować sygnały w trakcie wstecznej propagacji błędu. Ponadto ReLU wpływa na wprowadzenie nieliniowości, niezbędnej do modelowania złożonych zależności w danych.

Pomimo licznych zalet, funkcja ReLU posiada także pewne ograniczenia, takie jak problem "martwych neuronów", które mogą przestać się aktywować, jeśli otrzymują tylko ujemne wartości wejściowe. Z tego powodu powstały pewne modyfikacje ReLU, na przykład Leaky ReLU czy Parametric ReLU, które próbują rozwiązać te niedoskonałości, wprowadzając niewielką wartość dodatnią dla ujemnych argumentów. Mimo to klasyczna ReLU pozostaje podstawowym narzędziem w projektowaniu nowoczesnych sieci neuronowych.