Comprender los componentes de búsqueda

Completado

Una solución de Búsqueda de AI consta de varios componentes, y cada uno desempeña un papel importante en el proceso de extracción, enriquecimiento, indexación y búsqueda de datos.

Origen de datos

Diagrama que muestra una ilustración conceptual de un origen de datos.

La mayoría de las soluciones de búsqueda comienzan con un origen de datos que contiene los datos que se quieren buscar. Búsqueda de Azure AI admite varios tipos de origen de datos, como los siguientes:

  • Archivos no estructurados en contenedores de Azure Blob Storage.
  • Tablas de Azure SQL Database.
  • Documentos de Cosmos DB.

Búsqueda de Azure AI puede extraer datos de estos orígenes de datos para la indexación.

Como alternativa, las aplicaciones pueden insertar datos JSON directamente en un índice, sin extraerlos de un almacén de datos existente.

Conjunto de aptitudes

Diagrama de una ilustración conceptual de un conjunto de aptitudes.

En una solución de búsqueda básica, puede indexar los datos extraídos del origen de datos. La información que se puede extraer depende del origen de datos. Por ejemplo, al indexar datos de una base de datos, es posible que se extraigan los campos de las tablas de la base de datos; o bien, al indexar un conjunto de documentos, es posible que se extraigan los metadatos del archivo, como el nombre de archivo, la fecha de modificación, el tamaño y el autor, junto con el contenido de texto del documento.

Aunque una solución de búsqueda básica que indexa los valores de datos extraídos directamente desde el origen de datos resulta útil, las expectativas de los usuarios de aplicaciones modernas han impulsado una necesidad de obtener conclusiones más completas a partir de los datos. En Búsqueda de Azure AI, puede aplicar aptitudes de inteligencia artificial (IA) como parte del proceso de indexación para enriquecer los datos de origen con nueva información, que se puede asignar a campos de índice. Las aptitudes usadas por un indexador se encapsulan en un conjunto de aptitudes, el cual define una canalización de enriquecimiento en la que cada paso mejora los datos de origen con conclusiones obtenidas por una aptitud de IA específica. Entre los ejemplos del tipo de información que puede extraer una aptitud de IA se incluyen:

  • El lenguaje en el que está escrito un documento.
  • Frases clave que pueden ayudar a determinar los temas principales que se tratan en un documento.
  • Una puntuación de opinión que indica lo positivo o negativo que es un documento.
  • Ubicaciones, personas, organizaciones o puntos de referencia específicos mencionados en el contenido.
  • Descripciones de imágenes generadas por IA o texto de imágenes extraído mediante el reconocimiento óptico de caracteres.
  • Aptitudes personalizadas que desarrolla para satisfacer requisitos específicos.

indizador

Diagrama que muestra una ilustración conceptual de un indexador.

El indexador es el motor que impulsa el proceso de indexación general. Toma las salidas extraídas mediante las aptitudes del conjunto de aptitudes, junto con los valores de datos y metadatos extraídos del origen de datos original, y las asigna a campos del índice.

Un indexador se ejecuta automáticamente cuando se crea y se puede programar para ejecutarse a intervalos regulares o a petición para agregar más documentos al índice. En algunos casos, como cuando se agregan campos nuevos a un índice o aptitudes nuevas a un conjunto de aptitudes, es posible que tenga que restablecer el índice antes de volver a ejecutar el indexador.

Índice

Diagrama que muestra una ilustración conceptual de un índice.

El índice es el resultado que se puede buscar del proceso de indexación. Consta de una colección de documentos JSON, con campos que contienen los valores extraídos durante la indexación. Las aplicaciones cliente pueden consultar el índice para recuperar, filtrar y ordenar información.

Cada campo de índice se puede configurar con los atributos siguientes:

  • key: campos que definen una clave única para los registros del índice.
  • searchable: campos que se pueden consultar mediante la búsqueda de texto completo.
  • filterable: campos que se pueden incluir en expresiones de filtro para devolver solo los documentos que coincidan con las restricciones especificadas.
  • sortable: campos que se pueden usar para ordenar los resultados.
  • facetable: campos que se pueden usar para determinar los valores de las facetas (elementos de la interfaz de usuario que se usan para filtrar los resultados en función de una lista de valores de campo conocidos).
  • retrievable: campos que se pueden incluir en los resultados de la búsqueda (de forma predeterminada, todos los campos se pueden recuperar a menos que este atributo se quite explícitamente).