Tokenizacja – proces dzielenia tekstu na tokeny.

Tokenizacja to podstawowy etap przetwarzania języka naturalnego polegający na podziale ciągłego tekstu na mniejsze jednostki zwane tokenami. Tokeny mogą odpowiadać pojedynczym słowom, frazom, zdaniom lub nawet znaków interpunkcyjnych, w zależności od zastosowanej metody i konkretnego celu analizy. Proces ten umożliwia dalsze operacje na tekście, takie jak analiza składniowa, tagowanie czy modelowanie języka.

Tokenizacja stanowi fundament dla wielu technik wykorzystywanych w systemach sztucznej inteligencji i przetwarzaniu języka naturalnego, takich jak klasyfikacja tekstu, rozpoznawanie mowy czy tłumaczenia automatyczne. W praktyce istnieje wiele podejść do tokenizacji, w tym wykorzystanie reguł opartych na znakach białych, wyrażeniach regularnych, a także technik uczących się z danych. W zależności od języka i kontekstu, tokenizacja może wymagać uwzględnienia specyficznych reguł gramatycznych i leksykalnych.