Floating Point (FP32/FP16/BF16) – formaty zapisu liczb decydujące o precyzji modelu.

Floating Point to formaty reprezentacji liczb zmiennoprzecinkowych, które odgrywają kluczową rolę w precyzji obliczeń numerycznych, w tym w trenowaniu i inferencji modeli sztucznej inteligencji. W praktyce najczęściej stosowane są trzy warianty: FP32 (32-bitowy), FP16 (16-bitowy) oraz BF16 (bfloat16). Każdy z nich różni się długością mantysy i wykładnika, co wpływa na zakres i dokładność przechowywanych wartości liczbowych.

FP32 zapewnia najwyższą precyzję spośród wymienionych formatów, dzięki 23-bitowej mantysie oraz 8-bitowemu wykładnikowi, co umożliwia reprezentację bardzo szerokiego zakresu liczb z dużą dokładnością. FP16 wykorzystuje 10 bitów na mantysę i 5 bitów na wykładnik, co pozwala na szybsze obliczenia oraz mniejsze zużycie pamięci kosztem zmniejszonej precyzji. BF16, będący kompromisem między dwoma poprzednimi, stosuje 7 bitów na mantysę, ale utrzymuje 8-bitowy wykładnik, co znacząco poprawia zakres dynamiczny przy umiarkowanym spadku dokładności. Dobór odpowiedniego formatu floating point ma zasadnicze znaczenie dla efektywności i jakości działania modeli AI, szczególnie w kontekście optymalizacji pod kątem szybkości działania oraz ograniczeń sprzętowych.