Interpretability – dziedzina zajmująca się zrozumieniem "dlaczego" model podjął decyzję.

Interpretowalność w kontekście sztucznej inteligencji odnosi się do zdolności systemów uczących się, w szczególności modeli predykcyjnych, do wyjaśnienia przyczyn i mechanizmów stojących za podjętymi decyzjami. Jest to dziedzina, która skupia się na umożliwieniu użytkownikom, twórcom oraz nadzorcom lepszego zrozumienia procesów decyzyjnych modeli, co ma na celu zwiększenie zaufania do ich wyników oraz poprawę możliwości kontroli i audytu.

Badania nad interpretowalnością obejmują różnorodne metody analizy oraz techniki wizualizacji, które pozwalają na identyfikację istotnych cech i wzorców wpływających na ostateczną decyzję modelu. Dzięki temu możliwe jest nie tylko wyjaśnienie działania modeli złożonych, takich jak sieci neuronowe, ale także wykrywanie potencjalnych błędów, uprzedzeń czy nadmiernego dopasowania do danych treningowych. W praktyce interpretowalność staje się kluczowym elementem w zastosowaniach krytycznych, takich jak medycyna, finanse czy systemy wymiaru sprawiedliwości, gdzie zrozumiałość wyników może mieć bezpośredni wpływ na życie i bezpieczeństwo ludzi.