Cleaning (Oczyszczanie danych) – usuwanie błędów i braków z danych.

Proces polegający na wykrywaniu i eliminowaniu nieprawidłowości, błędów oraz brakujących wartości w zbiorze danych. Oczyszczanie danych ma na celu poprawę jakości i spójności informacji, co jest kluczowe dla skutecznego wykorzystania ich w analizach oraz modelach sztucznej inteligencji. W praktyce obejmuje korektę błędów typograficznych, usuwanie duplikatów, uzupełnianie lub usuwanie brakujących danych oraz standaryzację formatów.

Działania podejmowane w ramach oczyszczania danych wpływają na wiarygodność wyników analiz oraz efektywność algorytmów uczących się. Proces ten jest jednym z etapów przygotowania danych, który decyduje o prawidłowym funkcjonowaniu systemów opartych na sztucznej inteligencji i uczeniu maszynowym. W związku z tym stanowi nieodłączny element każdego projektu związanego z przetwarzaniem i analizą danych.