Speech-to-Text (STT) – transkrypcja mowy na tekst.

Technologia polegająca na automatycznym przekształcaniu wypowiadanej mowy na jej odpowiednik tekstowy. Proces ten opiera się na rozpoznawaniu wzorców dźwiękowych i analizie fonetycznej, umożliwiając konwersję sygnału akustycznego na ciąg znaków alfanumerycznych. Systemy tego typu wykorzystują zaawansowane algorytmy uczenia maszynowego, w tym sieci neuronowe, które pozwalają na identyfikację słów i fraz niezależnie od akcentu, szybkości mówienia czy szumów tła.

Zastosowania tej technologii są bardzo szerokie, obejmując m.in. transkrypcję rozmów telefonicznych, dyktowanie tekstu, automatyczne napisy do materiałów audio i wideo, a także interfejsy głosowe w asystentach cyfrowych. Systemy transkrypcji mowy na tekst stale się doskonalą, co pozwala na osiąganie coraz wyższej precyzji i adaptację do różnych języków oraz dialektów. W połączeniu z innymi technologiami przetwarzania języka naturalnego, stanowią one fundament współczesnych rozwiązań komunikacyjnych i ułatwiają dostęp do informacji osobom z wadami słuchu.