Compreender os componentes de pesquisa

Concluído

Uma solução de pesquisa de IA consiste em vários componentes, cada um desempenhando um papel importante no processo de extração, enriquecimento, indexação e pesquisa de dados.

Data source

Um diagrama mostrando uma ilustração conceitual de uma fonte de dados.

A maioria das soluções de pesquisa começa com uma fonte de dados que contém os dados que você deseja pesquisar. O Azure AI Search dá suporte a vários tipos de fonte de dados, incluindo:

  • Arquivos não estruturados em contêineres de armazenamento de blob do Azure.
  • Tabelas no Banco de Dados SQL do Azure.
  • Documentos no Cosmos DB.

O Azure AI Search pode extrair dados dessas fontes de dados para indexação.

Como alternativa, os aplicativos podem enviar dados JSON diretamente para um índice, sem obtê-los de um armazenamento de dados existente.

Conjunto de competências

Um diagrama, uma ilustração conceptual de um conjunto de competências.

Em uma solução de pesquisa básica, você pode indexar os dados extraídos da fonte de dados. As informações que podem ser extraídas dependem da fonte de dados. Por exemplo, ao indexar dados em um banco de dados, os campos nas tabelas do banco de dados podem ser extraídos; ou ao indexar um conjunto de documentos, metadados de arquivo como nome do arquivo, data de modificação, tamanho e autor podem ser extraídos junto com o conteúdo de texto do documento.

Embora uma solução de pesquisa básica que indexa valores de dados extraídos diretamente da fonte de dados possa ser útil, as expectativas dos usuários de aplicativos modernos geraram a necessidade de insights mais ricos sobre os dados. No Azure AI Search, você pode aplicar habilidades de inteligência artificial (IA) como parte do processo de indexação para enriquecer os dados de origem com novas informações, que podem ser mapeadas para campos de índice. As habilidades usadas por um indexador são encapsuladas em um conjunto de habilidades que define um pipeline de enriquecimento no qual cada etapa aprimora os dados de origem com insights obtidos por uma habilidade específica de IA. Exemplos do tipo de informação que pode ser extraída por uma habilidade de IA incluem:

  • A língua em que um documento é escrito.
  • Frases-chave que podem ajudar a determinar os principais temas ou tópicos discutidos em um documento.
  • Uma pontuação de sentimento que quantifica o quão positivo ou negativo é um documento.
  • Locais, pessoas, organizações ou pontos de referência específicos mencionados no conteúdo.
  • Descrições de imagens geradas por IA ou texto de imagem extraído por reconhecimento ótico de caracteres.
  • Habilidades personalizadas que você desenvolve para atender a requisitos específicos.

Indexador

Um diagrama mostrando uma ilustração oculta de um indexador.

O indexador é o mecanismo que conduz o processo geral de indexação. Ele pega as saídas extraídas usando as habilidades no conjunto de habilidades, juntamente com os valores de dados e metadados extraídos da fonte de dados original, e as mapeia para campos no índice.

Um indexador é executado automaticamente quando é criado e pode ser agendado para ser executado em intervalos regulares ou sob demanda para adicionar mais documentos ao índice. Em alguns casos, como quando você adiciona novos campos a um índice ou novas habilidades a um conjunto de habilidades, talvez seja necessário redefinir o índice antes de executar novamente o indexador.

Índice

Um diagrama mostrando uma ilustração oculta de um índice.

O índice é o resultado pesquisável do processo de indexação. Consiste em uma coleção de documentos JSON, com campos que contêm os valores extraídos durante a indexação. Os aplicativos cliente podem consultar o índice para recuperar, filtrar e classificar informações.

Cada campo de índice pode ser configurado com os seguintes atributos:

  • key: campos que definem uma chave exclusiva para registros de índice.
  • pesquisável: campos que podem ser consultados usando a pesquisa de texto completo.
  • filtrável: campos que podem ser incluídos em expressões de filtro para retornar apenas documentos que correspondam às restrições especificadas.
  • classificável: campos que podem ser usados para ordenar os resultados.
  • facetable: campos que podem ser usados para determinar valores para facetas (elementos da interface do usuário usados para filtrar os resultados com base em uma lista de valores de campo conhecidos).
  • recuperável: campos que podem ser incluídos nos resultados da pesquisa (por padrão, todos os campos podem ser recuperados, a menos que esse atributo seja explicitamente removido).