Outer Alignment – poprawność samej definicji funkcji celu podanej przez człowieka.

Termin odnosi się do stopnia zgodności pomiędzy funkcją celu określoną przez człowieka a rzeczywistymi intencjami lub wartościami, które ta funkcja ma reprezentować w systemach sztucznej inteligencji. Podstawową kwestią jest tutaj czy zdefiniowana formalnie funkcja celu jest poprawna, tzn. czy rzeczywiście wyraża to, co projektant systemu zamierza osiągnąć. W praktyce może się zdarzyć, że funkcja celu jest błędnie sformułowana, co prowadzi do działań algorytmu niezgodnych z oczekiwaniami.

Poprawność samej definicji funkcji celu jest kluczowa dla prawidłowego działania inteligentnych systemów, ponieważ od tego zależy, czy algorytm będzie się zachowywał zgodnie z założeniami etycznymi, praktycznymi lub strategicznymi. Problemy z tą poprawnością mogą skutkować tzw. błędami celowymi (goal mis-specification), co jest jednym z głównych wyzwań w dziedzinie bezpiecznej sztucznej inteligencji. Wyróżnia się ją spośród innych aspektów problemu tzw. alignmentu, który także obejmuje m.in. sposób realizacji funkcji celu przez system oraz adaptację do zmieniających się warunków.

W literaturze pojęcie to jest często kontrastowane z Inner Alignment, dotyczącym zgodności wewnętrznych procesów uczenia maszynowego z przyjętą funkcją celu. Zagadnienie poprawności definicji funkcji celu stanowi fundament w badaniach nad tworzeniem systemów, które nie tylko optymalizują zadane kryteria, ale robią to w sposób bezpieczny i przewidywalny, minimalizując ryzyko niezamierzonych zachowań.