Jailbreaking – próba obejścia zabezpieczeń modelu językowego.

Jailbreaking to technika stosowana w kontekście modeli językowych, polegająca na próbie obejścia wbudowanych zabezpieczeń i ograniczeń narzuconych przez twórców systemu. Celem takich działań jest zmuszenie modelu do generowania treści, które normalnie byłyby zablokowane ze względu na zasady etyczne, prawne lub polityki bezpieczeństwa. Procedura ta może obejmować różnorodne metody manipulacji wejściowym tekstem, takie jak specjalnie skonstruowane zapytania, polecenia czy „prompt injection”, które mają na celu zmodyfikowanie działania modelu.

Działania związane z jailbreakowaniem modeli językowych budzą kontrowersje, gdyż mogą prowadzić do niekontrolowanego i niebezpiecznego wykorzystywania sztucznej inteligencji. Obejście zabezpieczeń może skutkować generowaniem treści nieodpowiednich, szkodliwych, a nawet nielegalnych, co stawia wyzwania przed twórcami systemów sztucznej inteligencji w zakresie utrzymania bezpieczeństwa i odpowiedzialności. W praktyce zwalczanie takich prób wymaga ciągłego rozwoju mechanizmów detekcji oraz doskonalenia polityk moderacji treści generowanych przez modele językowe.