Quantization Levels (4-bit, 8-bit) – poziomy kompresji wag modelu.

Poziomy kompresji wag modelu odnoszą się do liczby dyskretnych wartości, które mogą przyjmować wagi sieci neuronowej po procesie kwantyzacji. W praktyce najczęściej stosowane są poziomy 4-bitowe i 8-bitowe, które odpowiadają odpowiednio 16 oraz 256 możliwym wartościom. Kwantyzacja pozwala na znaczące zmniejszenie rozmiaru modelu oraz obniżenie wymagań obliczeniowych, co jest szczególnie istotne w zastosowaniach na urządzeniach o ograniczonych zasobach, takich jak smartfony czy systemy wbudowane.

Wybór mniejszej liczby poziomów kwantyzacji, na przykład 4-bitowej, prowadzi do silniejszej redukcji precyzji wag, co może wpływać na obniżenie dokładności działania modelu. Z kolei poziom 8-bitowy stanowi kompromis między kompresją a zachowaniem jakości, umożliwiając efektywne przyspieszenie obliczeń przy minimalnym spadku wydajności. Optymalizacja liczby poziomów kwantyzacji jest kluczowym elementem w procesie dostosowywania modeli AI do konkretnych zastosowań oraz ograniczeń sprzętowych.