Inference Latency – opóźnienie między wysłaniem zapytania a otrzymaniem odpowiedzi.

Czas, jaki upływa od momentu wysłania zapytania do systemu sztucznej inteligencji do chwili uzyskania odpowiedzi, określa się jako opóźnienie odpowiedzi. Jest to kluczowy parametr wpływający na efektywność i użyteczność modeli w zastosowaniach wymagających interakcji w czasie rzeczywistym, takich jak asystenci głosowi, systemy rekomendacyjne czy autonomiczne pojazdy.

Opóźnienie to zależy od wielu czynników, w tym mocy obliczeniowej sprzętu, optymalizacji modelu, infrastruktury sieciowej, a także złożoności samego zapytania. Minimalizacja tego czasu jest często celem rozwoju systemów AI, gdyż zbyt duże opóźnienie może negatywnie wpłynąć na komfort użytkownika oraz praktyczną możliwość zastosowania danej technologii w krytycznych sytuacjach.