Tutorial: Pesquisar seus dados usando um modelo de chat (RAG no Azure AI Search)

Artigo
01/09/2025

A característica definidora de uma solução RAG no Azure AI Search é enviar consultas a um LLM (Large Language Model) para uma experiência de pesquisa conversacional sobre seu conteúdo indexado. Pode ser surpreendentemente fácil se você implementar apenas o básico.

Neste tutorial:

Configurar clientes
Escreva instruções para o LLM
Fornecer uma consulta projetada para entradas LLM
Analise os resultados e explore as próximas etapas

Este tutorial baseia-se nos tutoriais anteriores. Ele pressupõe que você tenha um índice de pesquisa criado pelo pipeline de indexação.

Pré-requisitos

Visual Studio Code com a extensão Python e o pacote Jupyter. Para obter mais informações, consulte Python no Visual Studio Code.
Azure AI Search, em uma região compartilhada com o Azure OpenAI.
Azure OpenAI, com uma implementação de gpt-4o. Para obter mais informações, consulte Escolher modelos para RAG no Azure AI Search

Transferir o exemplo

Você usa o mesmo bloco de anotações do tutorial anterior do pipeline de indexação. Os scripts para consultar o LLM seguem as etapas de criação do pipeline. Se você ainda não tiver o notebook, baixe-o do GitHub.

Configurar clientes para enviar consultas

O padrão RAG no Azure AI Search é uma série sincronizada de conexões com um índice de pesquisa para obter os dados de aterramento, seguida por uma conexão com um LLM para formular uma resposta à pergunta do usuário. A mesma cadeia de caracteres de consulta é usada por ambos os clientes.

Você está configurando dois clientes, portanto, precisa de pontos de extremidade e permissões em ambos os recursos. Este tutorial pressupõe que você configure atribuições de função para conexões autorizadas, mas você deve fornecer os pontos de extremidade em seu bloco de anotações de exemplo:

# Set endpoints and API keys for Azure services
AZURE_SEARCH_SERVICE: str = "PUT YOUR SEARCH SERVICE ENDPOINT HERE"
# AZURE_SEARCH_KEY: str = "DELETE IF USING ROLES, OTHERWISE PUT YOUR SEARCH SERVICE ADMIN KEY HERE"
AZURE_OPENAI_ACCOUNT: str = "PUR YOUR AZURE OPENAI ENDPOINT HERE"
# AZURE_OPENAI_KEY: str = "DELETE IF USING ROLES, OTHERWISE PUT YOUR AZURE OPENAI KEY HERE"

Exemplo de script para prompt e consulta

Aqui está o script Python que instancia os clientes, define o prompt e configura a consulta. Você pode executar esse script no bloco de anotações para gerar uma resposta a partir da implantação do modelo de chat.

Para a nuvem do Azure Government, modifique o ponto de extremidade da API no provedor de token para "https://cognitiveservices.azure.us/.default".

# Import libraries
from azure.search.documents import SearchClient
from openai import AzureOpenAI

token_provider = get_bearer_token_provider(credential, "https://cognitiveservices.azure.com/.default")
openai_client = AzureOpenAI(
     api_version="2024-06-01",
     azure_endpoint=AZURE_OPENAI_ACCOUNT,
     azure_ad_token_provider=token_provider
 )

deployment_name = "gpt-4o"

search_client = SearchClient(
     endpoint=AZURE_SEARCH_SERVICE,
     index_name=index_name,
     credential=credential
 )

# Provide instructions to the model
GROUNDED_PROMPT="""
You are an AI assistant that helps users learn from the information found in the source material.
Answer the query using only the sources provided below.
Use bullets if the answer has multiple points.
If the answer is longer than 3 sentences, provide a summary.
Answer ONLY with the facts listed in the list of sources below. Cite your source when you answer the question
If there isn't enough information below, say you don't know.
Do not generate answers that don't use the sources below.
Query: {query}
Sources:\n{sources}
"""

# Provide the search query. 
# It's hybrid: a keyword search on "query", with text-to-vector conversion for "vector_query".
# The vector query finds 50 nearest neighbor matches in the search index
query="What's the NASA earth book about?"
vector_query = VectorizableTextQuery(text=query, k_nearest_neighbors=50, fields="text_vector")

# Set up the search results and the chat thread.
# Retrieve the selected fields from the search index related to the question.
# Search results are limited to the top 5 matches. Limiting top can help you stay under LLM quotas.
search_results = search_client.search(
    search_text=query,
    vector_queries= [vector_query],
    select=["title", "chunk", "locations"],
    top=5,
)

# Newlines could be in the OCR'd content or in PDFs, as is the case for the sample PDFs used for this tutorial.
# Use a unique separator to make the sources distinct. 
# We chose repeated equal signs (=) followed by a newline because it's unlikely the source documents contain this sequence.
sources_formatted = "=================\n".join([f'TITLE: {document["title"]}, CONTENT: {document["chunk"]}, LOCATIONS: {document["locations"]}' for document in search_results])

response = openai_client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": GROUNDED_PROMPT.format(query=query, sources=sources_formatted)
        }
    ],
    model=deployment_name
)

print(response.choices[0].message.content)

Rever resultados

Nesta resposta, a resposta baseia-se em cinco entradas (top=5) constituídas por partes determinadas pelo motor de busca como sendo as mais relevantes. As instruções no prompt dizem ao LLM para usar apenas as informações nos resultados da sourcespesquisa formatados ou ou formatados.

Os resultados da primeira consulta "What's the NASA earth book about?" devem ser semelhantes ao exemplo a seguir.

The NASA Earth book is about the intricate and captivating science of our planet, studied 
through NASA's unique perspective and tools. It presents Earth as a dynamic and complex 
system, observed through various cycles and processes such as the water cycle and ocean 
circulation. The book combines stunning satellite images with detailed scientific insights, 
portraying Earth’s beauty and the continuous interaction of land, wind, water, ice, and 
air seen from above. It aims to inspire and demonstrate that the truth of our planet is 
as compelling as any fiction.

Source: page-8.pdf

Espera-se que os LLMs retornem respostas diferentes, mesmo que o prompt e as consultas não sejam alterados. Seu resultado pode parecer muito diferente do exemplo. Para obter mais informações, consulte Saiba como usar a saída reproduzível.

Nota

Ao testar este tutorial, vimos uma variedade de respostas, algumas mais relevantes do que outras. Algumas vezes, repetir a mesma solicitação causou uma deterioração na resposta, provavelmente devido a confusão no histórico de chat, possivelmente com o modelo registrando as solicitações repetidas como insatisfação com a resposta gerada. O gerenciamento do histórico de bate-papo está fora do escopo deste tutorial, mas incluí-lo no código do aplicativo deve atenuar ou até mesmo eliminar esse comportamento.

Adicionar um filtro

Lembre-se de que você criou um locations campo usando IA aplicada, preenchido com locais reconhecidos pela habilidade Reconhecimento de Entidade. A definição de campo para locais inclui o filterable atributo. Vamos repetir a solicitação anterior, mas desta vez adicionando um filtro que seleciona o termo gelo no campo locais.

Um filtro introduz critérios de inclusão ou exclusão. O mecanismo de busca ainda está fazendo uma pesquisa vetorial no "What's the NASA earth book about?", mas agora está excluindo correspondências que não incluem gelo. Para obter mais informações sobre filtragem em coleções de cadeias de caracteres e em consultas vetoriais, consulte Fundamentos do filtro de texto, Compreender filtros de coleção e Adicionar filtros a uma consulta vetorial.

Substitua a definição de search_results pelo exemplo a seguir que inclui um filtro:

query="what is the NASA earth book about?"
vector_query = VectorizableTextQuery(text=query, k_nearest_neighbors=50, fields="text_vector")

# Add a filter that selects documents based on whether locations includes the term "ice".
search_results = search_client.search(
    search_text=query,
    vector_queries= [vector_query],
    filter="search.ismatch('ice*', 'locations', 'full', 'any')",
    select=["title", "chunk", "locations"],
    top=5
)

sources_formatted = "=================\n".join([f'TITLE: {document["title"]}, CONTENT: {document["chunk"]}, LOCATIONS: {document["locations"]}' for document in search_results])

Os resultados da consulta filtrada agora devem ser semelhantes à resposta a seguir. Observe a ênfase na cobertura de gelo.

The NASA Earth book showcases various geographic and environmental features of Earth through 
satellite imagery, highlighting remarkable landscapes and natural phenomena. 

- It features extraordinary views like the Holuhraun Lava Field in Iceland, captured by 
Landsat 8 during an eruption in 2014, with false-color images illustrating different elements 
such as ice, steam, sulfur dioxide, and fresh lava ([source](page-43.pdf)).
- Other examples include the North Patagonian Icefield in South America, depicted through 
clear satellite images showing glaciers and their changes over time ([source](page-147.pdf)).
- It documents melt ponds in the Arctic, exploring their effects on ice melting and 
- heat absorption ([source](page-153.pdf)).
  
Overall, the book uses satellite imagery to give insights into Earth's dynamic systems 
and natural changes.

Alterar as entradas

Aumentar ou diminuir o número de entradas para o LLM pode ter um grande efeito na resposta. Tente executar a mesma consulta novamente após a configuração top=8. Quando você aumenta as entradas, o modelo retorna resultados diferentes a cada vez, mesmo que a consulta não seja alterada.

Aqui está um exemplo do que o modelo retorna depois de aumentar as entradas para 8.

The NASA Earth book features a range of satellite images capturing various natural phenomena 
across the globe. These include:

- The Holuhraun Lava Field in Iceland documented by Landsat 8 during a 2014 volcanic 
eruption (Source: page-43.pdf).
- The North Patagonian Icefield in South America, highlighting glacial landscapes 
captured in a rare cloud-free view in 2017 (Source: page-147.pdf).
- The impact of melt ponds on ice sheets and sea ice in the Arctic, with images from 
an airborne research campaign in Alaska during July 2014 (Source: page-153.pdf).
- Sea ice formations at Shikotan, Japan, and other notable geographic features in various 
locations recorded by different Landsat missions (Source: page-168.pdf).

Summary: The book showcases satellite images of diverse Earth phenomena, such as volcanic 
eruptions, icefields, and sea ice, to provide insights into natural processes and landscapes.

Como o modelo está vinculado aos dados de aterramento, a resposta se torna mais expansiva à medida que você aumenta o tamanho da entrada. Você pode usar o ajuste de relevância para gerar respostas mais focadas.

Alterar o prompt

Você também pode alterar o prompt para controlar o formato da saída, o tom e se deseja que o modelo complemente a resposta com seus próprios dados de treinamento alterando o prompt.

Aqui está outro exemplo de produção de LLM se refocarmos o prompt na identificação de locais para estudo científico.

# Provide instructions to the model
GROUNDED_PROMPT="""
You are an AI assistant that helps scientists identify locations for future study.
Answer the query cocisely, using bulleted points.
Answer ONLY with the facts listed in the list of sources below.
If there isn't enough information below, say you don't know.
Do not generate answers that don't use the sources below.
Do not exceed 5 bullets.
Query: {query}
Sources:\n{sources}
"""

A saída da alteração apenas do prompt, caso contrário, mantendo todos os aspetos da consulta anterior, pode se parecer com este exemplo.

The NASA Earth book appears to showcase various locations on Earth captured through satellite imagery, 
highlighting natural phenomena and geographic features. For instance, the book includes:

- The Holuhraun Lava Field in Iceland, detailing volcanic activity and its observation via Landsat 8.
- The North Patagonian Icefield in South America, covering its glaciers and changes over time as seen by Landsat 8.
- Melt ponds in the Arctic and their impacts on the heat balance and ice melting.
- Iceberg A-56 in the South Atlantic Ocean and its interaction with cloud formations.

(Source: page-43.pdf, page-147.pdf, page-153.pdf, page-39.pdf)

Gorjeta

Se você continuar com o tutorial, lembre-se de restaurar o prompt para seu valor anterior (You are an AI assistant that helps users learn from the information found in the source material).

A alteração de parâmetros e prompts afeta a resposta do LLM. Ao explorar por conta própria, tenha em mente as seguintes dicas:

Aumentar o valor pode esgotar a top cota disponível no modelo. Se não houver cota, uma mensagem de erro será retornada ou o modelo poderá retornar "Não sei".
Aumentar o top valor não melhora necessariamente o resultado. Nos testes com top, às vezes notamos que as respostas não são dramaticamente melhores.
Então, o que pode ajudar? Normalmente, a resposta é o ajuste de relevância. Melhorar a relevância dos resultados de pesquisa do Azure AI Search é geralmente a abordagem mais eficaz para maximizar a utilidade do seu LLM.

Na próxima série de tutoriais, o foco muda para maximizar a relevância e otimizar o desempenho da consulta para velocidade e concisão. Revisitamos a definição de esquema e a lógica de consulta para implementar recursos de relevância, mas o restante do pipeline e dos modelos permanecem intactos.

Próximo passo

Maximizar a relevância

Partilhar via