Almacenes de vectores en Azure Machine Learning (versión preliminar)
Importante
Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin un Acuerdo de Nivel de Servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas.
Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.
En este artículo se describen los índices vectoriales de Azure Machine Learning que puede usar para realizar la generación aumentada de recuperación (RAG). Un índice vectorial almacena inserciones que son representaciones numéricas de conceptos (datos) convertidas en secuencias numéricas. Las inserciones permiten que los modelos de lenguaje grandes (LLM) comprendan las relaciones entre los conceptos. Puede crear almacenes de vectores para conectar los datos con VM como GPT-4 y recuperar los datos de forma eficaz.
Azure Machine Learning admite dos almacenes de vectores que contienen los datos complementarios usados en un flujo de trabajo RAG:
Almacén de vectores | Descripción | Características y uso |
---|---|---|
Faiss | Biblioteca de código abierto | - Usar almacén basado en archivos local - Incurrir en costes mínimos - Compatibilidad con datos de solo vector - Compatibilidad con desarrollo y pruebas |
Azure AI Search | Recurso de PaaS de Azure | - Almacenar datos de texto en el índice de búsqueda - Hospedar un gran número de índices con un único servicio - Compatibilidad con los requisitos empresariales de nivel empresarial - Acceder a la recuperación de información híbrida |
En las secciones siguientes se exploran las consideraciones para trabajar con estos almacenes de vectores.
Biblioteca Faiss
Faiss es una biblioteca código abierto que proporciona un almacén basado en archivos local. El índice de vectores se almacena en la cuenta de almacenamiento de Azure del área de trabajo de Azure Machine Learning. Para trabajar con Faiss, descargue la biblioteca y úsela como componente de la solución. Dado que el índice se almacena localmente, los costes son mínimos.
Puede usar la biblioteca Faiss como almacén de vectores y realizar las siguientes acciones:
Almacenar datos vectoriales localmente, sin costes para crear un índice (solo coste de almacenamiento)
Compilar y consulta de un índice en memoria
Compartir copias para uso individual y configurar el hospedaje del índice para una aplicación
Escalado con el índice de carga del proceso subyacente
Azure AI Search
Búsqueda de Azure AI (anteriormente Cognitive Search) es un recurso PaaS de Azure dedicado que se crea en una suscripción de Azure. El recurso de Azure admite la recuperación de información sobre los datos vectoriales y textuales almacenados en los índices de búsqueda. Un flujo de avisos puede crear, rellenar y consultar los datos vectoriales almacenados en Azure AI Search. Un único servicio de búsqueda puede hospedar un gran número de índices, que se pueden consultar y usar en un patrón RAG.
Estos son algunos puntos clave sobre el uso de Azure AI Search para el almacén de vectores:
Admite los requisitos empresariales de nivel empresarial para el escalado, la seguridad y la disponibilidad.
Recuperación de información híbrida. Los datos vectoriales pueden coexistir con datos son vectoriales, por lo que se puede usar cualquiera de las características de Azure AI Search para la indexación y las consultas, incluida la búsqueda híbrida y la reclasificación semántica.
Tenga en cuenta que la compatibilidad con vectores está en versión preliminar. Actualmente, los vectores se deben generar externamente y, después, pasarlos a Azure AI Search para la indexación y codificación de consultas. El flujo de mensajes controla estas transiciones automáticamente.
Para usar Azure AI Search como almacén de vectores para Azure Machine Learning, debes tener un servicio de búsqueda. Una vez que el servicio exista y conceda acceso a los desarrolladores, puede elegir Búsqueda de Azure AI como índice vectorial en un flujo de avisos. El flujo de avisos crea el índice en Azure AI Search, genera vectores a partir de los datos de origen, envía los vectores al índice, invoca la búsqueda de similitud en Azure AI Search y devuelve la respuesta.