Dane treningowe – zbiór danych używany do budowy modelu.
Dane wykorzystywane do uczenia maszynowego stanowią podstawowy element procesu budowy modeli sztucznej inteligencji, pozwalającym na ich adaptację i optymalizację. Składają się na nie zbiory przykładów, które ilustrują zależności oraz wzorce obecne w rzeczywistych danych. Ich celem jest dostarczenie modelowi informacji, na podstawie których może on samodzielnie wyodrębnić reguły i dokonywać predykcji lub klasyfikacji.
Charakterystyka i jakość danych mają kluczowy wpływ na efektywność oraz wiarygodność powstałych modeli. Zbiór ten powinien być reprezentatywny dla problemu, uwzględniać różnorodność możliwych przypadków oraz być odpowiednio oznaczony, jeśli model opiera się na podejściu nadzorowanym. Proces przygotowania danych treningowych obejmuje często etap ich oczyszczania, standaryzacji oraz ewentualnej augmentacji, aby poprawić możliwości generalizacji modelu na nowe, nieznane dane.
W kontekście rozwoju i zastosowania sztucznej inteligencji, dostępność i właściwy dobór danych treningowych są jednym z najważniejszych czynników determinujących sukces wdrożenia technologii w praktyce. Niewłaściwie dobrany zbiór może prowadzić do błędnych wniosków, nadmiernego dopasowania lub dyskryminacji, co z kolei może mieć negatywne konsekwencje w zastosowaniach komercyjnych i badawczych.