Deepfaking (Audio) – klonowanie głosu konkretnej osoby.

Deepfaking audio to technologia wykorzystująca zaawansowane metody sztucznej inteligencji, w szczególności sieci neuronowe, do stworzenia realistycznej imitacji głosu konkretnej osoby. Proces ten polega na analizie nagrań danej osoby oraz nauce charakterystycznych cech jej barwy, tembru, intonacji i akcentu, co umożliwia generowanie nowych wypowiedzi w jej głosie, nawet jeśli nie zostały one rzeczywiście wypowiedziane. Techniki tego typu często bazują na modelach typu deep learning, takich jak autoregresyjne sieci neuronowe czy modele transformacyjne.

Zastosowanie deepfakingu audio znajduje się w różnych dziedzinach, od rozrywki i dubbingu, przez pomoc osobom z utratą głosu, po tworzenie asystentów głosowych o charakterystycznych intonacjach. Jednocześnie technologia ta budzi poważne obawy związane z etyką, prywatnością oraz bezpieczeństwem, gdyż może zostać wykorzystana do fałszowania nagrań, oszustw czy manipulacji informacyjnych. W związku z tym rozwijane są metody wykrywania deepfake’ów oraz regulacje prawne mające na celu ograniczenie nadużyć.