Voice Conversion – zmiana brzmienia głosu przy zachowaniu treści.

Proces polegający na przekształceniu cech akustycznych jednego głosu w taki sposób, aby zachować wyraźność i rozpoznawalność przekazywanej treści, jednocześnie zmieniając jego brzmienie, intonację czy charakterystyczne cechy identyfikujące mówcę. Technologia ta umożliwia generowanie mowy brzmiącej tak, jakby była wypowiedziana przez inną osobę, bez utraty semantyki przekazu. W praktyce znajduje zastosowanie w syntezie mowy, personalizacji asystentów głosowych, a także w branży rozrywkowej i ochronie prywatności.

Wykorzystuje zaawansowane metody uczenia maszynowego, w tym sieci neuronowe, które uczą się odwzorowywać różnice między głosami w oparciu o duże zbiory danych akustycznych. Proces transformacji obejmuje analizę parametrów mowy, takich jak ton podstawowy, spektrum czy cechy prozodyczne, a następnie ich modyfikację tak, aby zachować znaczenie wypowiedzi, ale zmienić percepcję autentycznego źródła dźwięku. Zaletą tego podejścia jest możliwość tworzenia naturalnie brzmiących nagrań głosowych z minimalną utratą jakości i wiarygodności wypowiedzi.