Direct Preference Optimization (DPO) – nowsza metoda dostrajania modeli do preferencji ludzi (zamiast RLHF).

Jest to metoda optymalizacji wykorzystywana do dostrajania modeli językowych na podstawie preferencji wyrażanych przez ludzi, która stanowi alternatywę dla tradycyjnego podejścia opartego na wzmacniającym uczeniu na podstawie opinii ludzi (RLHF – Reinforcement Learning from Human Feedback). Technika ta polega na bezpośrednim optymalizowaniu funkcji celu reprezentującej preferencje użytkowników, bez konieczności stosowania złożonych algorytmów uczenia ze wzmocnieniem. Dzięki temu proces dostrajania jest bardziej stabilny i efektywny pod względem obliczeniowym.

Metoda ta pozwala na lepsze dopasowanie generowanych przez modele odpowiedzi do oczekiwań i wartości użytkowników, eliminując problem nadmiernej eksploracji charakterystyczny dla RLHF. Poprzez bezpośrednie maksymalizowanie zgodności z preferencjami, DPO może skuteczniej poprawiać jakość wyników i satysfakcję użytkownika końcowego. W praktyce zastosowanie tej metody prowadzi do bardziej przejrzystych procedur dostrajania, które ułatwiają interpretację i kontrolę procesu uczenia, oferując bardziej zrównoważony kompromis między wydajnością a kosztami treningu.