Token – najmniejsza jednostka tekstu przetwarzana przez model.

Token jest podstawową jednostką tekstu wykorzystywaną w procesie przetwarzania języka naturalnego przez modele sztucznej inteligencji. Stanowi fragment ciągu znaków, który może odpowiadać pojedynczemu słowu, jego części, znakowi interpunkcyjnemu lub innemu elementowi tekstowemu, w zależności od przyjętych zasad tokenizacji. Tokenizacja umożliwia podział dłuższych tekstów na mniejsze, bardziej przystępne jednostki, co jest kluczowe dla dalszej analizy i interpretacji danych językowych przez model.

W procesie uczenia i inferencji modele językowe operują na sekwencjach tokenów, co pozwala im rozpoznawać wzorce, przewidywać kolejne fragmenty tekstu oraz generować odpowiedzi. Długość i złożoność tokenów może różnić się w zależności od zastosowanego algorytmu tokenizacji – niektóre metody dzielą tekst na słowa, inne na pod-słowa lub pojedyncze znaki, co wpływa na efektywność oraz dokładność przetwarzania. Poprawne zdefiniowanie tokenów jest istotne dla wydajności modeli oraz jakości generowanych wyników.