Osadzanie wektorów w usłudze Azure Cosmos DB
Wektory, znane również jako osadzanie lub osadzanie wektorów, to matematyczne reprezentacje danych w przestrzeni wielowymiarowej. Reprezentują one różne typy informacji — tekst, obrazy, dźwięk — format, który może przetwarzać modele uczenia maszynowego. Gdy model sztucznej inteligencji odbiera tekst wejściowy, najpierw tokenizuje tekst do tokenów. Każdy token jest następnie konwertowany na odpowiednie osadzanie. Ten proces konwersji można wykonać przy użyciu modelu generowania osadzania, takiego jak osadzanie w usłudze Azure OpenAI lub przytulanie twarzy na platformie Azure. Model przetwarza te osadzanie za pomocą wielu warstw, przechwytując złożone wzorce i relacje w tekście. Osadzanie danych wyjściowych można następnie przekonwertować z powrotem na tokeny w razie potrzeby, generując czytelny tekst.
Wektory
Każde osadzanie jest wektorem liczb zmiennoprzecinkowych, tak aby odległość między dwoma osadzaniami w przestrzeni wektorowej została skorelowana z podobieństwem semantycznym między dwoma danymi wejściowymi w oryginalnym formacie. Jeśli na przykład dwa teksty są podobne, ich reprezentacje wektorowe również powinny być podobne. Te reprezentacje wielowymiarowe przechwytują znaczenie semantyczne, co ułatwia wykonywanie zadań, takich jak wyszukiwanie, klastrowanie i klasyfikowanie.
Oto dwa przykłady tekstów reprezentowanych jako wektory:
Źródło obrazu: OpenAI
Wymiary i bliskość
Każde pole zawierające liczby zmiennoprzecinkowe odpowiada wymiarowi, a każdy wymiar odpowiada funkcji lub atrybutu, który może lub nie jest zrozumiały dla ludzi. Osadzanie tekstu modelu dużego języka zwykle ma kilka tysięcy wymiarów, podczas gdy bardziej złożone modele danych mogą mieć dziesiątki tysięcy wymiarów.
Między dwoma wektorami w powyższym przykładzie niektóre wymiary są podobne, podczas gdy inne wymiary są różne, które są spowodowane podobieństwami i różnicami w znaczeniu dwóch fraz.
Na tym obrazie przedstawiono bliskość przestrzenną wektorów, które są podobne, kontrastujące wektory, które są drastycznie różne:
Źródło obrazu: OpenAI
Przykłady
Więcej przykładów można zobaczyć w tej interaktywnej wizualizacji , która przekształca dane w przestrzeń trójwymiarową.
Powiązana zawartość
- Co to jest baza danych wektorów?
- Pobieranie rozszerzonej generacji (RAG)
- Wektorowa baza danych w usłudze Azure Cosmos DB NoSQL
- Wektorowa baza danych w usłudze Azure Cosmos DB dla bazy danych MongoDB
- Co to jest wyszukiwanie wektorów?
- Tokeny LLM
- Funkcje odległości
- algorytmy wyszukiwania wektorów kNN a ANN