Bagging – metoda zmniejszania wariancji modelu (np. Random Forest).

Jest to technika uczenia zespołowego mająca na celu redukcję wariancji predykcji modeli poprzez tworzenie wielu niezależnych klasyfikatorów lub regresorów na podstawie różnych próbek oryginalnych danych treningowych. Próbki te są generowane metodą bootstrap, czyli przez losowanie ze zwracaniem, co oznacza, że poszczególne elementy zbioru treningowego mogą pojawić się w nowej próbce wielokrotnie lub wcale. Modele uczone na takich zestawach są następnie łączone, najczęściej za pomocą uśredniania (w regresji) lub głosowania większościowego (w klasyfikacji), co pozwala na stabilizację i poprawę jakości prognoz.

Technika ta efektywnie zmniejsza wariancję modelu, co oznacza redukcję nadmiernego dopasowania do danych treningowych (ang. overfitting). Stosując bagging, można poprawić ogólną zdolność generalizacji modelu bez znaczącego wzrostu jego błędu systematycznego (bias). Przykładem algorytmu wykorzystującego tę metodę jest Random Forest, gdzie wiele drzew decyzyjnych jest uczonych na różnych podzbiorach danych i zestawie cech, a ostateczna decyzja jest podejmowana na podstawie zbiorowego wyniku tych drzew.

W praktyce bagging znajduje zastosowanie w różnych zadaniach predykcyjnych, zwłaszcza tam, gdzie modele bazowe cechują się wysoką wariancją. Dzięki swojej prostocie i skuteczności, metoda ta jest szeroko wykorzystywana w maszynowym uczeniu i jest podstawą wielu złożonych i zaawansowanych technik ensemble learning.