Text-to-Speech (TTS) – synteza mowy.

System, który na podstawie tekstu pisanego generuje jego werbalną reprezentację w postaci mowy naturalnej. Proces ten polega na przetwarzaniu sekwencji znaków lub słów w dźwięki za pomocą algorytmów modelujących cechy fonetyczne i intonacyjne języka. Technologia ta umożliwia przekształcenie dowolnego tekstu w dźwiękowy przekaz, co jest wykorzystywane w wielu dziedzinach, takich jak dostępność dla osób niewidomych i niedowidzących, systemy nawigacyjne, asystenci głosowi, czy automatyczne czytanie dokumentów.

W praktyce systemy syntezy mowy opierają się na różnych podejściach, w tym na dużych bazach nagranych głosów, metodach formantowych czy współcześnie dominujących modelach opartych na sieciach neuronowych głębokiego uczenia. Współczesne rozwiązania pozwalają na generowanie mowy o wysokiej naturalności i ekspresji, a także na modulowanie tonu, szybkości czy emocji głosu. Rozwój technologiczny i lepsze algorytmy zwiększają efektywność i jakość syntezy, co przyczynia się do szerokiego wdrożenia TTS w aplikacjach codziennego użytku oraz specjalistycznych systemach komunikacyjnych.