Tokens per Second (TPS) – miara szybkości generowania tekstu przez LLM.

Miara szybkości generowania tekstu przez duże modele językowe, określająca liczbę tokenów wytwarzanych w ciągu jednej sekundy. Tokenem może być słowo, jego część lub znak, w zależności od zastosowanego sposobu tokenizacji. Wysoka wartość tej miary świadczy o efektywności modelu w generowaniu tekstu w czasie rzeczywistym lub przy dużych wolumenach danych.

Stosowana jest przede wszystkim do oceny wydajności modeli LLM (Large Language Models) w kontekście ich praktycznych zastosowań, takich jak chatbota, automatyczne tłumaczenia czy generowanie treści. Wartość tokens per second (TPS) zależy zarówno od architektury modelu, jak i od parametrów sprzętowych, na którym model jest uruchamiany, a także od konkretnej implementacji i optymalizacji algorytmów.

Analiza tej miary jest istotna dla porównywania różnych modeli pod kątem szybkości działania oraz dla oceny opłacalności ich zastosowania w systemach produkcyjnych. Wysokie TPS umożliwia bardziej płynną interakcję użytkownika z systemem oraz przyspiesza procesy przetwarzania dużych zbiorów tekstowych.