Udostępnij za pośrednictwem


Osadzanie wektorów w usłudze Azure Cosmos DB

Wektory, znane również jako osadzanie lub osadzanie wektorów, to matematyczne reprezentacje danych w przestrzeni wielowymiarowej. Reprezentują one różne typy informacji — tekst, obrazy, dźwięk — format, który może przetwarzać modele uczenia maszynowego. Gdy model sztucznej inteligencji odbiera tekst wejściowy, najpierw tokenizuje tekst do tokenów. Każdy token jest następnie konwertowany na odpowiednie osadzanie. Ten proces konwersji można wykonać przy użyciu modelu generowania osadzania, takiego jak osadzanie w usłudze Azure OpenAI lub przytulanie twarzy na platformie Azure. Model przetwarza te osadzanie za pomocą wielu warstw, przechwytując złożone wzorce i relacje w tekście. Osadzanie danych wyjściowych można następnie przekonwertować z powrotem na tokeny w razie potrzeby, generując czytelny tekst.

Wektory

Każde osadzanie jest wektorem liczb zmiennoprzecinkowych, tak aby odległość między dwoma osadzaniami w przestrzeni wektorowej została skorelowana z podobieństwem semantycznym między dwoma danymi wejściowymi w oryginalnym formacie. Jeśli na przykład dwa teksty są podobne, ich reprezentacje wektorowe również powinny być podobne. Te reprezentacje wielowymiarowe przechwytują znaczenie semantyczne, co ułatwia wykonywanie zadań, takich jak wyszukiwanie, klastrowanie i klasyfikowanie.

Oto dwa przykłady tekstów reprezentowanych jako wektory:

Zrzut ekranu przedstawiający przykłady wektorów w usłudze Azure Cosmos DB.

Źródło obrazu: OpenAI

Wymiary i bliskość

Każde pole zawierające liczby zmiennoprzecinkowe odpowiada wymiarowi, a każdy wymiar odpowiada funkcji lub atrybutu, który może lub nie jest zrozumiały dla ludzi. Osadzanie tekstu modelu dużego języka zwykle ma kilka tysięcy wymiarów, podczas gdy bardziej złożone modele danych mogą mieć dziesiątki tysięcy wymiarów.

Między dwoma wektorami w powyższym przykładzie niektóre wymiary są podobne, podczas gdy inne wymiary są różne, które są spowodowane podobieństwami i różnicami w znaczeniu dwóch fraz.

Na tym obrazie przedstawiono bliskość przestrzenną wektorów, które są podobne, kontrastujące wektory, które są drastycznie różne:

Zrzut ekranu przedstawiający zbliżenie wektorów w usłudze Azure Cosmos DB.

Źródło obrazu: OpenAI

Przykłady

Więcej przykładów można zobaczyć w tej interaktywnej wizualizacji , która przekształca dane w przestrzeń trójwymiarową.