Внедрение векторов в Azure Cosmos DB
Векторы, также известные как внедрения или векторные внедрения, являются математическими представлениями данных в высокомерном пространстве. Они представляют различные типы информации — текст, изображения, звук — формат, который может обрабатывать модели машинного обучения. Когда модель ИИ получает текстовые данные, она сначала маркеризирует текст в маркеры. Затем каждый маркер преобразуется в соответствующее внедрение. Этот процесс преобразования можно выполнить с помощью модели внедрения, например Azure OpenAI Embeddings или Hugging Face в Azure. Модель обрабатывает эти внедрения с помощью нескольких слоев, захватывая сложные шаблоны и связи в тексте. При необходимости выходные внедрения можно преобразовать обратно в маркеры, создав доступный для чтения текст.
Векторы
Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Эти высокомерные представления захватывают семантическое значение, что упрощает выполнение таких задач, как поиск, кластеризация и классификация.
Ниже приведены два примера текста, представленных в виде векторов:
Источник изображения: OpenAI
Измерения и близкость
Каждое поле, содержащее числа с плавающей запятой, соответствует измерению, и каждое измерение соответствует признаку или атрибуту, которые могут или не могут быть понятны для людей. В текстах больших языковых моделей обычно используется несколько тысяч измерений, а более сложные модели данных могут иметь десятки тысяч измерений.
Между двумя векторами в приведенном выше примере некоторые измерения похожи, а другие измерения отличаются, что связано с сходством и различиями в значении двух фраз.
На этом изображении показано пространственное закрытие векторов, которые похожи на контрастные векторы, которые резко отличаются:
Источник изображения: OpenAI
Примеры
Дополнительные примеры можно увидеть в этой интерактивной визуализации , которая преобразует данные в трехмерное пространство.