RLHF – uczenie przez wzmacnianie na podstawie informacji od ludzi.

Technika polegająca na łączeniu tradycyjnych metod uczenia przez wzmacnianie z nadzorem wynikającym z oceny człowieka, mająca na celu poprawę jakości i zgodności zachowań modelu z oczekiwaniami użytkowników. W procesie tym model sztucznej inteligencji uczy się optymalizować swoje decyzje lub odpowiedzi na podstawie sygnałów zwrotnych przekazywanych przez ludzi, które pełnią funkcję nagród lub kar. Dzięki temu możliwe jest skuteczniejsze dostosowanie zachowania systemu do specyficznych preferencji i wymogów, które trudno formalnie zdefiniować lub zmierzyć standardowymi metodami.

Praktyczne zastosowanie obejmuje m.in. trenowanie zaawansowanych modeli językowych, które poprzez iteracyjne uczenie z ludzkim nadzorem mogą generować bardziej użyteczne, etyczne i zgodne z zamierzeniami odpowiedzi. Metoda ta znacząco podnosi jakość interakcji człowiek–maszyna, gdyż uzupełnia tradycyjne, matematyczne funkcje nagród o subiektywne, lecz kluczowe z punktu widzenia użytkowników informacje. W efekcie RLHF przyczynia się do rozwoju systemów sztucznej inteligencji bardziej empatycznych, adaptacyjnych oraz lepiej spełniających realne potrzeby użytkowników.