Vision-Language-Action (VLA) – modele sterujące robotami na podstawie poleceń wizualnych i tekstowych.

Modele Vision-Language-Action (VLA) to zaawansowane systemy sztucznej inteligencji, które integrują przetwarzanie wizualne oraz językowe w celu sterowania działaniami robotów. Wykorzystują jednoczesną analizę danych wizualnych oraz instrukcji tekstowych, co umożliwia rozumienie środowiska zewnętrznego oraz wykonywanie odpowiednich, precyzyjnych komend w sposób zautomatyzowany. Dzięki temu roboty wyposażone w tego typu modele mogą realizować zadania, które wymagają zarówno percepcji wzrokowej, jak i interpretacji poleceń językowych podanych przez użytkownika.

Systemy VLA są zazwyczaj oparte na głębokich sieciach neuronowych, które uczą się reprezentacji wielomodalnych – łączących obraz i tekst – oraz ich bezpośrednie powiązanie z akcjami robota. Modele te pozwalają na dynamiczną i elastyczną interakcję z otoczeniem, umożliwiając robotom np. rozpoznawanie obiektów, interpretowanie poleceń naturalnego języka oraz podejmowanie decyzji i działań zgodnych z intencją użytkownika. Ich rozwój znajduje zastosowanie w robotyce mobilnej, automatyzacji procesów przemysłowych oraz systemach wspomagających pracę człowieka, zwiększając autonomię i użyteczność robotów w złożonych, nieustrukturyzowanych przestrzeniach.