Prompt Caching – technika przyspieszania API poprzez zapamiętywanie powtarzalnych promptów.

Technika polegająca na zapisywaniu i ponownym wykorzystywaniu wcześniej przetworzonych zapytań (promptów) w celu zminimalizowania liczby wywołań API i skrócenia czasu odpowiedzi systemu. Metoda ta opiera się na przechowywaniu wyników dla często powtarzających się lub identycznych zapytań, co pozwala uniknąć kosztownych obliczeniowo operacji generowania odpowiedzi na nowo. Implementacja takiego mechanizmu pozwala na efektywniejsze zarządzanie zasobami serwera oraz redukcję opóźnień w obsłudze użytkownika.

Działanie tej techniki wymaga mechanizmu identyfikującego powtarzające się promptu, a następnie szybki dostęp do skojarzonych z nimi wyników z pamięci podręcznej. Szczególnie użyteczna jest w sytuacjach, gdy użytkownicy często wysyłają te same lub bardzo podobne zapytania, jak również w systemach o ograniczonej przepustowości lub wysokich kosztach korzystania z API. Wdrożenie takiego rozwiązania może wpłynąć na poprawę skalowalności aplikacji oraz zmniejszenie ogólnych kosztów operacyjnych związanych z korzystaniem z usług sztucznej inteligencji.