Tornar seus dados pesquisáveis

Concluído

Quando você deseja criar um copilot que usa seus próprios dados para gerar respostas precisas, você precisa ser capaz de pesquisar seus dados com eficiência. Ao criar um copilot com o Estúdio de IA do Azure, você pode usar a integração com a Pesquisa de IA do Azure para recuperar o contexto relevante em seu fluxo de chat.

A Pesquisa de IA do Azure é um recuperador que você pode incluir ao criar um aplicativo de modelo de linguagem com o prompt flow. A Pesquisa de IA do Azure permite que você traga seus próprios dados, indexe seus dados e consulte o índice para recuperar as informações necessárias.

Diagrama mostrando um índice sendo consultado para recuperar dados básicos.

Como usar um índice de vetor

Embora um índice baseado em texto aprimore a eficiência da pesquisa, em geral, você pode obter uma melhor solução de recuperação de dados usando um índice baseado em vetor que contém inserções que representam os tokens de texto na fonte de dados.

Uma inserção é um formato especial de representação de dados que um mecanismo de pesquisa pode usar para localizar facilmente as informações relevantes. Mais especificamente, uma inserção é um vetor de números de ponto flutuante.

Por exemplo, imagine que você tenha dois documentos com o seguinte conteúdo:

  • "As crianças brincavam alegremente no parque."
  • "Garotos corriam felizes pelo playground."

Esses dois documentos contêm textos semanticamente relacionados, embora palavras diferentes sejam usadas. Ao criar inserções de vetor para o texto nos documentos, a relação entre as palavras no texto pode ser calculada matematicamente.

Imagine as palavras-chave que estão sendo extraídas do documento e plotadas como um vetor em um espaço multidimensional:

Diagrama de inserções de vetor.

A distância entre vetores pode ser calculada medindo o cosseno do ângulo entre dois vetores, também conhecido como similaridade de cosseno. Em outras palavras, a similaridade de cosseno calcula a similaridade semântica entre documentos e uma consulta.

Ao representar palavras e seus significados com vetores, você pode extrair contexto relevante da fonte de dados mesmo quando seus dados são armazenados em diferentes formatos (texto ou imagem) e idiomas.

Quando você quiser poder usar a busca em vetores para pesquisar seus dados, precisará criar inserções ao criar seu índice de pesquisa. Para criar inserções para o índice de pesquisa, você pode usar um modelo de inserção do OpenAI do Azure disponível no Estúdio de IA do Azure.

Diagrama mostrando um índice de vetor que contém inserções.

Dica

Saiba mais sobre inserções no Serviço OpenAI do Azure.

Como criar um índice de pesquisa

Na Pesquisa de IA do Azure, um índice de pesquisa descreve como seu conteúdo é organizado para torná-lo pesquisável. Imagine uma biblioteca contendo muitos livros. Você deseja poder pesquisar pela biblioteca e recuperar o livro relevante de forma fácil e eficiente. Para tornar a biblioteca pesquisável, você cria um catálogo que contém todos os dados relevantes sobre livros para facilitar a localização de qualquer livro. O catálogo de uma biblioteca serve como o índice de pesquisa.

Embora existam diferentes abordagens para criar um índice, a integração da Pesquisa de IA do Azure no Estúdio de IA do Azure facilita a criação de um índice adequado para modelos de linguagem. Você pode adicionar seus dados ao Estúdio de IA do Azure, após o qual você pode usar a Pesquisa de IA do Azure para criar um índice no Estúdio de IA do Azure usando um modelo de inserção. O ativo de índice é armazenado na Pesquisa de IA do Azure e consultado pelo Estúdio de IA do Azure quando usado em um fluxo de chat.

Captura de tela da criação de um índice no Estúdio de IA do Azure.

A forma como você configura seu índice de pesquisa depende dos dados que você tem e do contexto que você deseja que seu modelo de linguagem use. Por exemplo, a pesquisa de palavra-chave permite que você recupere informações que correspondam exatamente à consulta de pesquisa. A pesquisa semântica já dá um passo adiante recuperando informações que correspondem ao significado da consulta em vez da palavra-chave exata, usando modelos semânticos. Atualmente, a técnica mais avançada é a busca em vetores, que cria inserções para representar seus dados.

Dica

Saiba mais sobre a busca em vetores.

Como pesquisar um índice

Há várias maneiras de consultar informações em um índice:

  • Pesquisa de palavra-chave: Identifica documentos ou passagens relevantes com base em palavras-chave ou termos específicos fornecidos como entrada.
  • Pesquisa semântica: Recupera documentos ou passagens compreendendo o significado da consulta e combinando-a com conteúdo semanticamente relacionado, em vez de depender apenas de correspondências exatas de palavra-chave.
  • Busca em vetores: Usa representações matemáticas de texto (vetores) para encontrar documentos ou passagens semelhantes com base em seu significado semântico ou contexto.
  • Pesquisa híbrida: Combina qualquer uma ou todas as outras técnicas de pesquisa. As consultas são executadas em paralelo e são retornadas em um conjunto de resultados unificado.

Ao criar um índice de pesquisa no Estúdio de IA do Azure, você será orientado a configurar um índice mais adequado para usar em combinação com um modelo de linguagem. Quando os resultados da pesquisa são usados em um aplicativo de IA generativa, a pesquisa híbrida fornece os resultados mais precisos.

A pesquisa híbrida é uma combinação de palavra-chave (e texto completo) e busca em vetores, à qual a classificação semântica é adicionada opcionalmente. Quando você cria um índice compatível com a pesquisa híbrida, as informações recuperadas são precisas quando correspondências exatas estão disponíveis (usando palavras-chave) e ainda relevantes quando apenas informações conceitualmente semelhantes podem ser encontradas (usando a busca em vetores).

Dica

Saiba mais sobre a pesquisa híbrida.