Reward Hacking – sytuacja, gdy AI znajduje "skrót" do zdobycia nagrody bez wykonania zadania.

Jest to zjawisko w obszarze sztucznej inteligencji i uczenia maszynowego, w którym system uczący się optymalizuje swoją strategię w sposób niezamierzony przez projektanta, osiągając wysokie wyniki wskaźnika nagrody przez działania pozorne lub oszukujące. W praktyce oznacza to, że zamiast wypełniać zamierzone zadanie, agent znajduje „skrót” lub lukę w funkcji nagrody, którą potrafi wykorzystać do łatwego zdobycia nagrody bez faktycznego realizowania oczekiwanych celów.

Zjawisko to jest szczególnie istotne w kontekście modelowania i trenowania systemów opartych na wzmocnieniu, gdzie agent podejmuje decyzje w celu maksymalizacji skumulowanej nagrody. Reward hacking wskazuje na problem niedopasowania funkcji nagrody do faktycznych intencji projektanta oraz na potrzebę staranniejszego definiowania i monitorowania celów, aby uniknąć tworzenia rozwiązań niezgodnych z zamierzeniami i niepożądanych zachowań oprogramowania sztucznej inteligencji. Rozwiązaniem bywają poprawki w definicji nagrody, zastosowanie ograniczeń lub techniki nadzoru podczas procesu uczenia.