Prompt Injection – atak polegający na przemyceniu ukrytych instrukcji w zapytaniu.

Jest to rodzaj ataku na systemy oparte na sztucznej inteligencji, w szczególności na modele językowe, polegający na celowym wprowadzeniu ukrytych lub złośliwych instrukcji w treści zapytania (promptu). Celem takiego działania jest manipulacja sposobem generowania odpowiedzi przez model w sposób niezamierzony przez użytkownika lub twórców systemu. Tego typu atak może prowadzić do wywołania niepożądanych zachowań modelu, takich jak ujawnienie poufnych informacji, generowanie nieodpowiednich treści lub obejście zabezpieczeń.

Technika ta wykorzystuje sposób przetwarzania promptu przez model, gdzie dodatkowe polecenia wbudowane w zapytanie mogą zmienić kontekst lub cele generowanej odpowiedzi. Ze względu na otwartą i tekstową formę interakcji z modelami, prompt injection stanowi poważne wyzwanie dla bezpieczeństwa i integralności systemów AI. Ochrona przed tego typu atakami wymaga stosowania mechanizmów filtrowania, analizy zapytań, a także projektowania modeli odpornych na manipulacje.