Quantization-Aware Training – uczenie modelu od razu z myślą o kwantyzacji.

Metoda polegająca na trenowaniu modelu sieci neuronowej z uwzględnieniem efektów kwantyzacji, która ma na celu poprawę dokładności i wydajności modelu po redukcji precyzji jego wag i aktywacji. Proces ten symuluje ograniczenia kwantyzacji podczas fazy treningowej, co pozwala sieci na adaptację do niższej rozdzielczości reprezentacji numerycznej. W ten sposób minimalizuje się degradację jakości działania modelu po zastosowaniu rzeczywistej kwantyzacji w fazie inferencji.

W porównaniu do tradycyjnego podejścia, w którym kwantyzacja jest stosowana dopiero po zakończeniu treningu, podejście to pozwala na lepsze dostosowanie parametrów modelu do wymogów obliczeń w niższej precyzji, co przekłada się na mniejsze straty dokładności. Technika ta jest szczególnie istotna w kontekście wdrażania modeli na urządzeniach o ograniczonych zasobach obliczeniowych, takich jak urządzenia mobilne czy systemy wbudowane.