Audio-to-Audio – modyfikacja głosu lub stylu muzycznego.

Technika polegająca na przekształcaniu sygnału dźwiękowego wejściowego w inny sygnał dźwiękowy, zachowując jednocześnie jego podstawowe cechy i strukturę. W kontekście sztucznej inteligencji odnosi się do procesów, które umożliwiają automatyczną modyfikację parametrów dźwięku, takich jak barwa głosu, intonacja, dynamika czy rytm, bez konieczności ręcznej ingerencji. Metody te są wykorzystywane w różnych zastosowaniach, takich jak zmiana stylu wokalnego, przetwarzanie instrumentów muzycznych czy generowanie efektów dźwiękowych.

W praktyce proces ten opiera się na zaawansowanych modelach uczenia maszynowego, zwłaszcza sieciach neuronowych, które uczą się wzorców i zależności pomiędzy dźwiękami w różnych stylach lub formach. Pozwala to na przykład na transformację głosu jednej osoby na głos innej, zmianę nastroju utworu lub adaptację muzyki do określonych preferencji i kontekstów. Technologia ta znajduje zastosowanie w produkcji muzycznej, grach komputerowych, mediach interaktywnych oraz systemach komunikacji głosowej.