Cosine Similarity – miara podobieństwa między wektorami.

Cosine Similarity to miara służąca do określania podobieństwa między dwoma wektorami w przestrzeni wielowymiarowej na podstawie kąta między nimi. Wartość tej miary zawiera się w przedziale od -1 do 1, gdzie 1 oznacza identyczny kierunek wektorów, 0 ich ortogonalność (brak podobieństwa), a -1 przeciwny kierunek. Jest szeroko stosowana w dziedzinie przetwarzania danych, zwłaszcza w analizie tekstu i uczeniu maszynowym, do porównywania dokumentów, cech, czy reprezentacji wektorowych.

Podstawowa idea polega na obliczeniu iloczynu skalarnego dwóch wektorów i podzieleniu go przez iloczyn ich norm euklidesowych. Dzięki temu uwzględniany jest tylko kąt między wektorami, niezależnie od ich długości. Metoda ta jest szczególnie użyteczna w przypadkach, gdy dane są reprezentowane jako wektory rzadkie lub o zmiennych długościach, na przykład w modelach przestrzeni wektorowej dokumentów w analizie tekstu.

W praktyce Cosine Similarity znajduje zastosowanie w systemach rekomendacyjnych, wyszukiwarkach informacji czy zadaniach klasteryzacji, gdzie pozwala na efektywne porównanie cech obiektów. Dzięki swojej prostocie i efektywności obliczeniowej jest jedną z podstawowych technik mierzenia podobieństwa w sztucznej inteligencji i eksploracji danych.