Cross-validation – technika sprawdzania modelu na różnych podzbiorach danych.

Technika polegająca na podziale dostępnych danych na kilka wzajemnie wykluczających się podzbiorów, nazywanych zazwyczaj „foldami”, w celu oceny jakości i stabilności modelu uczenia maszynowego. Proces ten polega na wielokrotnym trenowaniu modelu na zbiorze treningowym utworzonym z większości podzbiorów oraz testowaniu go na pozostałym, niewykorzystanym w danym kroku podzbiorze. Dzięki temu możliwe jest uzyskanie miarodajnej oceny skuteczności modelu, która jest mniej podatna na przypadkowe wahania związane z losowym podziałem danych.

Metoda ta umożliwia wykorzystanie całego zestawu danych zarówno do uczenia, jak i do testowania, co jest szczególnie istotne przy ograniczonej liczbie próbek. Najczęściej stosowaną formą jest k-krotna walidacja krzyżowa, gdzie dane dzielone są na k równych części, a proces powtarzany jest k-krotnie, za każdym razem z innym podzbiorem przeznaczonym do walidacji. Wyniki z poszczególnych iteracji są następnie uśredniane, co pozwala na uzyskanie bardziej wiarygodnej oceny modelu niż przy jednokrotnym podziale na zbiór treningowy i testowy.

Technika ta jest fundamentalnym narzędziem w procesie tworzenia i optymalizacji modeli uczenia maszynowego, ponieważ pozwala na wykrycie problemów takich jak nadmierne dopasowanie modelu (przeuczenie) oraz pomaga w doborze optymalnych parametrów i architektury modelu. Cross-validation jest szeroko stosowana zarówno w badaniach naukowych, jak i praktycznych aplikacjach przemysłowych.