Data Leakage (Wyciek danych) – sytuacja, gdy informacje ze zbioru testowego trafiają do treningowego.

Data Leakage (wyciek danych) to zjawisko w procesie uczenia maszynowego, polegające na niezamierzonym przenikaniu informacji ze zbioru testowego do zbioru treningowego. Skutek tego jest taki, że model uczy się danych testowych pośrednio, co prowadzi do sztucznie zawyżonej skuteczności klasyfikacji czy predykcji podczas oceny. W efekcie otrzymane wyniki nie odzwierciedlają rzeczywistej zdolności modelu do generalizacji na nowe, wcześniej niewidziane dane.

Wyciek danych może mieć różne przyczyny, na przykład błędne podzielenie danych, wykorzystanie cech zależnych od wyniku lub wcześniejsze przetwarzanie całego zbioru przed rozdzieleniem na treningowy i testowy. Unikanie tego problemu jest kluczowe dla prawidłowej oceny modeli sztucznej inteligencji i wymaga starannego przygotowania danych oraz procedur eksperymentalnych. Skutki wycieku danych obniżają wiarygodność modelu i mogą prowadzić do błędnych wniosków przy wdrażaniu systemów opartych na uczeniu maszynowym.