Synthetic Data Generation – tworzenie sztucznych danych zachowujących cechy prawdziwych.

Proces polegający na wytwarzaniu danych sztucznych, które wiernie odzwierciedlają statystyczne i strukturalne właściwości danych rzeczywistych. Celem jest stworzenie zbiorów danych, które mogą zastąpić lub uzupełnić oryginalne dane w zadaniach analitycznych, uczenia maszynowego czy testowaniu systemów, przy jednoczesnym zachowaniu poufności oraz ograniczeniu ryzyka związanego z wykorzystaniem danych wrażliwych.

Metody wykorzystywane do generowania takich danych obejmują modele probabilistyczne, techniki symulacyjne, a także nowoczesne podejścia oparte na głębokich sieciach neuronowych, takie jak generatywne sieci przeciwstawne (GAN) czy modele autoregresyjne. Efekty sztucznej generacji charakteryzują się wysokim poziomem podobieństwa do oryginalnych danych, zarówno pod względem rozkładów, jak i korelacji pomiędzy zmiennymi, co pozwala na ich efektywne wykorzystanie w badaniach i aplikacjach wymagających wiarygodnych danych.

Stosowanie sztucznych danych stanowi istotne narzędzie w obszarach takich jak prywatność danych, testowanie oprogramowania, szkolenie algorytmów czy rozwój metod analitycznych, zwłaszcza tam, gdzie dostęp do rzeczywistych danych jest ograniczony lub ich użycie wiąże się z obostrzeniami prawnymi i etycznymi. Umożliwia to nie tylko ochronę danych osobowych, lecz także zwiększenie dostępności i skalowalności danych do celów badawczych i komercyjnych.