Knowledge Distillation – uczenie małego modelu od dużego modelu.

Jest to technika w dziedzinie uczenia maszynowego polegająca na przenoszeniu wiedzy z dużego, wytrenowanego modelu – często złożonego i o wysokiej liczbie parametrów – do mniejszego, bardziej zwymiarowanego modelu. Proces ten umożliwia zachowanie wysokiej jakości predykcji przy jednoczesnym zmniejszeniu wymagań obliczeniowych i pamięciowych, co jest istotne w zastosowaniach o ograniczonych zasobach, takich jak urządzenia mobilne czy systemy embedded.

W praktyce mały model uczy się imitować zachowanie dużego modelu poprzez dopasowywanie swoich wyjść do „miękkich” etykiet generowanych przez model nauczyciela, a nie tylko do oryginalnych etykiet treningowych. Pozwala to na przekazanie bogatszych informacji o rozkładzie prawdopodobieństwa klas i relacjach między nimi, co poprawia generalizację mniejszego modelu. Metoda ta jest szeroko stosowana w różnych zadaniach uczenia nadzorowanego, w tym w rozpoznawaniu obrazów, przetwarzaniu języka naturalnego czy systemach rekomendacyjnych, stanowiąc efektywny sposób kompresji wiedzy modeli.