Omówienie osadzania
Osadzanie to typ reprezentacji danych używany przez modele uczenia maszynowego. Osadzanie reprezentuje semantyczne znaczenie fragmentu tekstu. Osadzanie można wizualizować jako tablicę liczb, a odległość liczbowa między dwoma osadzami reprezentuje ich semantyczną podobieństwo. Jeśli na przykład dwa teksty są podobne, ich reprezentacje również powinny być podobne.
Osadzanie modeli
Jak skuteczne będą wyniki wyszukiwania, jest bezpośrednią próbą skuteczności osadzonego modelu.
Istnieją modele specjalnie utworzone w celu wykonania określonego zadania. Użyj osadzeń wyszukiwania podobieństwa do wyszukiwania podobieństwa semantycznego między fragmentami tekstu. Osadzanie wyszukiwania tekstu może przyjrzeć się istotności długiego dokumentu krótkiemu zapytaniu. Użyj osadzonych fragmentów kodu i zapytań wyszukiwania języka naturalnego przy użyciu osadzania wyszukiwania kodu.
Użytkownicy dostarczają dane wejściowe do zapytania dla modelu osadzania, który jest konwertowany z tekstu na wektor przy użyciu, na przykład modelu osadzania tekstu-ada-002 w celu wygenerowania osadzania tekstu.
Wynikiem będą wszystkie dokumenty pasujące do zapytania zawartego w indeksie wyszukiwania. Dokumenty z osadzanymi polami wektorowymi muszą istnieć w indeksie wyszukiwania, a ten sam model musi być używany do indeksowania i zapytania.
Osadzanie miejsca
Miejsce osadzania to rdzeń zapytań wektorowych składających się ze wszystkich pól wektorów z tego samego modelu osadzania. Składa się on ze wszystkich pól wektorów wypełnionych przy użyciu tego samego modelu.
W tym miejscu osadzania podobne elementy znajdują się blisko siebie, a różne elementy znajdują się dalej.
Na przykład dokumenty, które mówią o hotelach z parkiem wodnym, byłyby blisko siebie w przestrzeni osadzania, podczas gdy hotele bez tego obiektu byłyby dalej, podczas gdy nadal znajduje się w okolicy dla hoteli. Różne koncepcje, takie jak restauracje, byłyby jeszcze dalej. W praktyce osadzanie przestrzeni jest abstrakcyjne i nie ma dobrze zdefiniowanych znaczeń dla ludzi, ale podstawowa idea pozostaje taka sama.