State Space Models (SSM) – nowa architektura (np. Mamba) mogąca zastąpić Transformery.

Modele przestrzeni stanów (ang. State Space Models, SSM) to klasa modeli matematycznych i architektur sieci neuronowych, które reprezentują dane sekwencyjne w postaci dynamicznego systemu opisującego ewolucję ukrytego stanu w czasie. W przeciwieństwie do popularnych transformatorów, które opierają się na mechanizmach uwagi (attention) do przetwarzania sekwencji, modele SSM wykorzystują równania stanu do efektywnego kodowania i propagacji informacji sekwencyjnych. Takie podejście umożliwia modelom SSM utrzymanie długoterminowych zależności przy niższej złożoności obliczeniowej.

Nowa generacja modeli opartych na przestrzeni stanów, przykładowo architektura Mamba, sugeruje możliwość zastąpienia transformatorów w wielu zadaniach przetwarzania języka naturalnego lub analizy danych szeregów czasowych. Mamba i jej pokrewne rozwiązania charakteryzują się efektywniejszymi mechanizmami przetwarzania sekwencji, co przekłada się na mniejszą wymagania obliczeniowe oraz lepszą skalowalność, przy jednoczesnym zachowaniu lub nawet poprawie jakości modelowania długoterminowych zależności.

Dzięki temu podejściu, modele SSM zyskują na popularności jako alternatywne architektury dla transformatorów, zwłaszcza w zastosowaniach, gdzie kluczowa jest szybkość działania i wydajność energetyczna. Prace badawcze nad architekturami takimi jak Mamba wskazują na możliwości dalszego rozwoju modeli sekwencyjnych, które nie tylko efektywnie modelują złożone wzorce czasowe, ale także lepiej wykorzystują zasoby sprzętowe w skalowalnym uczeniu maszynowym.