Multi-Head Attention – mechanizm uwagi analizujący tekst z różnych perspektyw.

Jest to zaawansowany mechanizm uwagi wykorzystywany w modelach przetwarzania języka naturalnego, zwłaszcza w architekturze Transformer. Polega na równoległym zastosowaniu wielu głów uwagi, które niezależnie analizują różne aspekty wejściowej sekwencji danych, takich jak tekst. Pozwala to modelowi efektywniej wychwytywać złożone relacje kontekstowe oraz różnorodne właściwości semantyczne i syntaktyczne tekstu.

Każda głowa uwagi generuje odrębne reprezentacje, skupiając się na różnych fragmentach lub cechach wejściowych, co umożliwia wieloaspektową analizę informacji. Następnie wyniki z poszczególnych głów są łączone i przekształcane w jedną wspólną reprezentację, co poprawia zdolność modelu do rozumienia i generowania bardziej spójnych oraz bogatych w znaczenia odpowiedzi. Mechanizm ten jest kluczowy dla osiągania wysokiej skuteczności w zadaniach takich jak tłumaczenie maszynowe, rozpoznawanie mowy czy analiza sentymentu.