Hacer que los datos se puedan encontrar

Completado

Cuando quiera crear un Copilot que use sus propios datos para generar respuestas precisas, debe poder buscar los datos de forma eficaz. Al compilar un copiloto con Azure AI Studio, puede usar la integración con Búsqueda de Azure AI para recuperar el contexto pertinente en el flujo de chat.

Búsqueda de Azure AI es un recuperador que puede incluir al compilar una aplicación de modelo de lenguaje con flujo de avisos. Búsqueda de Azure AI permite traer sus propios datos, indexar los datos y consultar el índice para recuperar cualquier información que necesite.

Diagrama en el que se muestra un índice que se consulta para recuperar datos de base.

Uso de un índice vectorial

Aunque un índice basado en texto mejorará la eficacia de la búsqueda, normalmente puede lograr una mejor solución de recuperación de datos mediante un índice basado en vectores que contiene inserciones que representan los tokens de texto en el origen de datos.

Una inserción es un formato especial de representación de datos que un motor de búsqueda puede usar para encontrar fácilmente la información pertinente. De manera más concreta, una inserción es un vector de números de punto flotante.

Por ejemplo, imagina que tienes dos documentos con el siguiente contenido:

  • "Los niños jugaron alegremente en el parque".
  • "Los niños corrieron felizmente por el parque infantil".

Estos dos documentos contienen textos relacionados semánticamente, aunque usen palabras diferentes. Al crear incrustaciones vectoriales para el texto de los documentos, la relación entre las palabras del texto se puede calcular matemáticamente.

Imagine las palabras clave que se extraen del documento y se trazan como un vector en un espacio multidimensional:

Diagrama de inserciones vectoriales.

La distancia entre vectores se puede calcular midiendo el coseno del ángulo entre dos vectores, también conocido como similitud coseno. En otras palabras, la similitud coseno calcula la similitud semántica entre los documentos y una consulta.

Al representar palabras y sus significados con vectores, puedes extraer el contexto pertinente del origen de datos incluso cuando los datos se almacenan en diferentes formatos (texto o imagen) e idiomas.

Cuando quieras poder usar el vector de búsqueda para buscar los datos, debes crear inserciones al crear el índice de búsqueda. Para crear inserciones para el índice de búsqueda, puede usar un modelo de inserción de Azure OpenAI disponible en Azure AI Studio.

Diagrama en el que se muestra un índice vectorial que contiene inserciones.

Sugerencia

Obtenga más información sobre las inserciones en Azure OpenAI Service.

Creación de un índice de búsqueda

En Búsqueda de Azure AI, un índice de búsqueda describe cómo se organiza el contenido para que se puedan realizar búsquedas en él. Imagine una biblioteca que contiene muchos libros. Usted desea poder buscar en la biblioteca y recuperar un libro pertinente de forma fácil y eficaz. Para poder buscar en esta biblioteca, usted crea un catálogo que contiene datos relevantes sobre los libros para facilitar la búsqueda de cualquier libro. El catálogo de una biblioteca actúa como el índice de búsqueda.

Aunque hay diferentes enfoques para crear un índice, la integración de Búsqueda de Azure AI en Azure AI Studio facilita la creación de un índice adecuado para los modelos de lenguaje. Puede agregar los datos a Azure AI Studio, después de lo cual puede usar Búsqueda de Azure AI para crear un índice en Azure AI Studio mediante un modelo de inserción. El recurso de índice se almacena en Búsqueda de Azure AI y se consulta en Azure AI Studio cuando se usa en un flujo de chat.

Captura de pantalla de la creación de un índice en la Inteligencia artificial de Azure Studio.

La configuración del índice de búsqueda depende de los datos que tenga y del contexto que quiera que use el modelo de lenguaje. Por ejemplo, la búsqueda de palabras clave permite recuperar información que coincida exactamente con la consulta de búsqueda. La búsqueda semántica da un paso más allá al recuperar información que coincide con el significado de la consulta en lugar de la palabra clave exacta, mediante modelos semánticos. Actualmente, la técnica más avanzada es el vector de búsqueda, que crea inserciones para representar los datos.

Sugerencia

Obtenga más información sobre el vector de búsqueda.

Búsqueda de un índice

Hay varias maneras de consultar información en un índice:

  • Búsqueda de palabras clave: identifica los documentos o pasajes pertinentes en función de palabras clave o términos específicos proporcionados como entrada.
  • Búsqueda semántica: recupera documentos o pasajes mediante la comprensión del significado de la consulta y su coincidencia con contenido relacionado semánticamente en lugar de confiar únicamente en coincidencias exactas de palabras clave.
  • Vector de búsqueda: usa representaciones matemáticas del texto (vectores) para buscar documentos o pasajes similares en función de su significado semántico o contexto.
  • Búsqueda híbrida: Combina cualquiera o todas las demás técnicas de búsqueda. Las consultas se ejecutan en paralelo y se devuelven en un conjunto de resultados unificado.

Al crear un índice de búsqueda en Azure AI Studio, se le guía para configurar un índice que sea más adecuado para usarlo en combinación con un modelo de lenguaje. Cuando los resultados de la búsqueda se usan en una aplicación de IA generativa, la búsqueda híbrida proporciona los resultados más precisos.

La búsqueda híbrida es una combinación de palabras clave (y texto completo) y vector de búsqueda, a la que se agrega opcionalmente la clasificación semántica. Cuando se crea un índice compatible con la búsqueda híbrida, la información recuperada es precisa cuando hay coincidencias exactas disponibles (mediante palabras clave) y sigue siendo relevante cuando solo se puede encontrar información conceptualmente similar (mediante el vector de búsqueda).

Sugerencia

Más información sobre la búsqueda híbrida.