Vision Transformer (ViT) – zastosowanie architektury Transformer do obrazów.

Model oparty na architekturze Transformer, pierwotnie zaprojektowany do przetwarzania sekwencji tekstowych, zaadaptowany do analizy obrazów. Zamiast tradycyjnego podejścia z konwolucyjnymi sieciami neuronowymi (CNN), obraz jest dzielony na niewielkie, regularne fragmenty zwane patchami, które następnie są przekształcane w jednowymiarowe wektory cech. Te reprezentacje traktowane są jako sekwencja wejściowa dla transformera, co pozwala na modelowanie złożonych zależności przestrzennych w obrazie poprzez mechanizm uwagi (attention).

Dzięki zastosowaniu samouczącego się mechanizmu uwagi, model ten potrafi efektywnie wychwytywać kontekst w obrębie całego obrazu, co umożliwia bardzo precyzyjną analizę cech wizualnych. Vision Transformer wyróżnia się skalowalnością i zdolnością do uczenia się z dużych zbiorów danych, co przyczynia się do wysokiej skuteczności w zadaniach takich jak klasyfikacja obrazów, detekcja obiektów czy segmentacja semantyczna. Ten model stał się ważnym kierunkiem badań i rozwoju w dziedzinie komputerowego rozpoznawania obrazów i przetwarzania wizji komputerowej.