SMOTE – technika generowania syntetycznych przykładów dla rzadkich klas.

Technika ta służy do zrównoważenia rozkładu klas w zbiorach danych wykorzystywanych w uczeniu maszynowym, szczególnie w problemach klasyfikacji, gdzie niektóre klasy występują znacznie rzadziej od innych. Polega na generowaniu nowych, syntetycznych przykładów dla rzadkich klas poprzez interpolację istniejących próbek. W praktyce metoda ta wybiera losowo przykłady z mniejszościowej klasy, a następnie tworzy nowe dane poprzez łączenie ich cech z najbliższymi sąsiadami w przestrzeni cech.

Celem tej procedury jest poprawa jakości modelu poprzez lepsze reprezentowanie mniejszościowych klas, co pozwala na uniknięcie problemu niezrównoważonych danych, skutkującego często niską skutecznością klasyfikacji dla rzadkich kategorii. Technika ta jest powszechnie stosowana w dziedzinach takich jak analiza medyczna, wykrywanie oszustw czy rozpoznawanie obrazów, gdzie dane dla niektórych klasyfikacji mogą być niezwykle ograniczone.