Transformer – nowoczesna architektura sieci, na której bazuje ChatGPT.

Transformery stanowią nowoczesną architekturę sieci neuronowych, która zrewolucjonizowała przetwarzanie sekwencyjnych danych, zwłaszcza w obszarze przetwarzania języka naturalnego. Wprowadzona w 2017 roku przez Vaswaniego i współpracowników struktura opiera się na mechanizmie uwagi (ang. attention), który pozwala modelowi skutecznie analizować zależności między elementami sekwencji bez konieczności przetwarzania ich w kolejności liniowej. Dzięki temu transformery osiągają wysoką efektywność uczenia i doskonałe rezultaty w zadaniach takich jak tłumaczenie maszynowe, generowanie tekstu czy rozumienie języka.

Kluczowym elementem architektury jest samouważność (self-attention), która umożliwia modelowi nadawanie różnej wagi poszczególnym tokenom wejściowym w zależności od kontekstu, co znacząco poprawia jakość reprezentacji danych. Transformery składają się z warstw enkodera i dekodera lub tylko enkodera bądź dekodera w zależności od zastosowania. Stały się fundamentem dla wielu zaawansowanych modeli językowych, w tym systemów takich jak ChatGPT, które bazują na ich zdolności do generowania spójnych i kontekstowo odpowiednich wypowiedzi w sposób zręczny i efektywny.