Uczenie przez wzmacnianie (Reinforcement Learning) – nauka poprzez system kar i nagród.

Jest to metoda uczenia maszynowego, w której agent uczy się podejmować decyzje poprzez interakcję ze środowiskiem. W trakcie tej nauki agent otrzymuje sygnały zwrotne w postaci nagród lub kar, które służą do oceny wykonanych działań. Celem jest maksymalizacja skumulowanej nagrody w długim okresie, co prowadzi do optymalizacji polityki decyzyjnej.

Proces uczenia opiera się na eksploracji i eksploatacji, gdzie agent testuje różne strategie, aby znaleźć te najlepiej dostosowane do danego środowiska. Algorytmy uczenia przez wzmacnianie wykorzystują modele wartości, takie jak funkcje wartości stanu lub funkcje wartości stanu-akcji, które pomagają w przewidywaniu oczekiwanej nagrody dla konkretnych działań. Metoda ta jest szeroko stosowana w dziedzinie robotyki, systemów rekomendacyjnych oraz gier komputerowych, gdzie decyzje muszą być podejmowane w warunkach niepewności i zmiennych okoliczności.