Web Crawling – systematyczne przeszukiwanie sieci w celu indeksowania treści.

Web Crawling to proces automatycznego i systematycznego przeszukiwania stron internetowych przez specjalistyczne oprogramowanie, zwane robotami lub pająkami (ang. spiders). Jego głównym celem jest pobieranie zawartości stron, takich jak tekst, obrazy czy metadane, oraz indeksowanie tych informacji w bazach danych, co umożliwia szybkie i skuteczne wyszukiwanie treści w sieci. Systemy te działają według określonych algorytmów, które decydują o kolejności odwiedzania stron oraz zakresie zbieranych danych.

Proces ten stanowi fundament dla wielu usług internetowych, w tym wyszukiwarek internetowych, które korzystają z przygotowanych indeksów, by dostarczać użytkownikom trafne wyniki zapytań. Web Crawling musi być realizowany z uwzględnieniem zasad etycznych oraz technicznych ograniczeń, takich jak szanowanie plików robots.txt, które definiują, które części witryny mogą być indeksowane, oraz unikanie przeciążania serwerów. Zastosowanie tego mechanizmu wykracza poza wyszukiwarki – używany jest także w analizie danych, monitoringu zmian na stronach czy automatycznym zbieraniu informacji do systemów sztucznej inteligencji.