Adversarial Attacks – wprowadzanie drobnych zmian w danych, które mylą model.

Adversarial Attacks to techniki polegające na wprowadzaniu drobnych, celowo skonstruowanych zmian do danych wejściowych, które mają na celu wprowadzenie modelu sztucznej inteligencji w błąd. Modyfikacje te są często tak nieznaczne, że pozostają praktycznie niezauważalne dla człowieka, natomiast znacząco wpływają na wyniki przetwarzania przez systemy uczenia maszynowego. Ataki te mogą dotyczyć różnych rodzajów danych, takich jak obrazy, dźwięki czy teksty.

Celem takich działań jest wykazanie słabości modeli oraz ich podatności na manipulacje, co ma istotne znaczenie zwłaszcza w kontekście bezpieczeństwa i niezawodności systemów AI. Adversarial Attacks są przedmiotem badań w dziedzinie bezpieczeństwa informatycznego, a także służą do testowania odporności algorytmów, co umożliwia tworzenie bardziej odpornych i stabilnych rozwiązań w sztucznej inteligencji.