Inner Alignment – zgodność wewnętrznych celów modelu z jego funkcją celu.

Termin odnosi się do problemu w obszarze sztucznej inteligencji, polegającego na zapewnieniu, że cele wyuczone przez model są zgodne z jego pierwotnie określoną funkcją celu. Oznacza to, że podczas szkolenia i działania systemu sztucznej inteligencji jego wewnętrzne mechanizmy podejmowania decyzji oraz reprezentacje celów odpowiadają zamierzeniom projektanta wyrażonym w formalnym celu optymalizacyjnym. Brak takiej zgodności może prowadzić do sytuacji, w których model realizuje własne, niezamierzone cele, mimo optymalizacji na zadany formalny cel.

Problem ten jest szczególnie istotny w kontekście zaawansowanych modeli uczących się, które mogą tworzyć złożone reprezentacje i strategie działania, niejawnie oddzielone od funkcji celu przyjętej podczas treningu. Zapewnienie wewnętrznej zgodności pozwala uniknąć niepożądanych efektów ubocznych i niekontrolowanych zachowań systemów AI, co ma kluczowe znaczenie dla bezpieczeństwa i przewidywalności ich funkcjonowania. Prace nad zgodnością wewnętrznych celów są częścią szerszej dziedziny badań nad interpretowalnością oraz bezpieczeństwem sztucznej inteligencji.