Partilhar via


Respostas generativas baseadas em sites públicos

O gráfico a seguir ilustra a arquitetura quando sites públicos ou a Pesquisa Personalizada do Bing são usados como fonte de conhecimento:

Ilustração que detalha como um nó de respostas generativas usa sites públicos como fonte de conhecimento.

Como a Pesquisa Personalizada do Microsoft Bing fornece resultados

  1. Quando um nó de respostas generativas é configurado para usar a Pesquisa do Bing, o Copilot Studio executa as seguintes operações:

    • Moderação de mensagem: analisa a consulta do usuário e filtra conteúdo mal-intencionado.
    • Otimização de consulta: adiciona contexto de consulta do histórico de conversas, como informações relacionadas a local e hora.
    • Recuperação de informações: converte a resposta do usuário em uma consulta de pesquisa, que é passada para o serviço Pesquisa Personalizada do Bing e restrita aos domínios configurados do cliente.

    Ilustração gráfica detalhando a arquitetura usada para produzir respostas generativas no Copilot Studio.

  2. Os sistemas complexos do Bing usam esses critérios para fornecer resultados de pesquisa do índice da Pesquisa Personalizada do Bing. Como a Pesquisa Personalizada do Bing é um serviço global, nenhum limite regional é possível.

  3. Os resultados da pesquisa são retornados e o Copilot Studio executa as seguintes operações:

    • Agrupa e analisa os principais resultados relevantes de uma fonte especificada ou dos domínios configurados do cliente.
    • Executa verificação de aterramento, verificações de proveniência e verificações cruzadas de similaridade semântica.
    • Resume os resultados da pesquisa em linguagem simples entregue ao usuário do agente.
  4. Todo o conteúdo é verificado duas vezes: primeiro durante a entrada do usuário e novamente quando o agente está prestes a responder. Se o sistema encontrar conteúdo prejudicial, ofensivo ou mal-intencionado, ele impedirá que seu agente responda.

Modelos de IA generativa

Os modelos de IA generativa são hospedados em serviços internos do Microsoft Azure OpenAI, respeitando o limite do Microsoft Services Trust. Os modelos são acessados e usados seguindo os princípios e políticas de IA Responsável da Microsoft.

O enunciado reescrito do usuário com contexto de conversação é enviado do Copilot Studio para o Bing. O contexto é derivado das últimas conversas em vários turnos.

Em seguida, os dados de resposta do Bing (os resultados da pesquisa) são enviados de volta ao Copilot Studio.

Além disso, o Copilot Studio não coleta ou fornece quaisquer dados de clientes usados no treinamento desses modelos durante a troca de dados.

Microsoft não envia o EUPI (Identificador Pseudônimo de Usuário Final) estruturado, ou seja, um identificador criado por Microsoft vinculado ao usuário de um serviço Microsoft para a Pesquisa do Bing.

No entanto, se o usuário adicionar algo que possa ser interpretado como dados pessoais, as respostas generativas não detectam, removem ou mascaram esses dados. Essa falta de remoção ocorre porque em muitos casos de uso autenticados em outros setores, as informações de dados pessoais são necessárias para o processamento legítimo.

Proteções pré-desenvolvidas para respostas generativas

As políticas da Microsoft exigem uma avaliação para demonstrar a aderência apropriada às práticas responsáveis de IA antes de lançar produtos e pesquisas Microsoft que desenvolvam, implantem ou integrem recursos de IA generativa. Todos os danos para os quais a Microsoft desenvolve mitigações passam por um red teaming completo, onde as mitigações são testadas quanto à sua prevalência. Somente depois que as implementações de teste e mitigação são concluídas é que um sistema de IA generativa é implantado.

O Copilot Studio também aplica políticas de moderação de conteúdo em todas as solicitações de IA generativa para proteger administradores, criadores e usuários contra conteúdo ofensivo ou prejudicial. Essas políticas de moderação de conteúdo também se estendem a tentativas maliciosas de jailbreak, injeção de prompts, exfiltração de prompt e violação de direitos autorais.

Como as respostas generativas impedem informações incorretas dos resultados da Pesquisa do Bing

O Copilot Studio usa a recuperação aumentada de geração, que separa as etapas de recuperação dos resultados da pesquisa e o resumo desses resultados em uma resposta coesa. Os resultados de pesquisa retornados de sites são verificados quanto a citações adequadas e podem ser rastreados até sua fonte. Além disso, a relevância dos resultados da pesquisa em relação à pergunta feita pelo usuário é validada.

Observação

Se você ativar a configuração Permitir que a IA use seu próprio conhecimento geral, a restrição de citação será amenizada.

Gerenciando conteúdo nocivo ao gerar respostas dos resultados da Pesquisa do Bing

A produção tóxica e as mitigações de palavrões para categorias de conteúdo prejudicial, como ódio, violência, conteúdo sexual e automutilação, estão disponíveis como mecanismos de segurança pré-desenvolvidos. As consultas do usuário e os resultados de pesquisa retornados de um site são verificados quanto a violações, e as perguntas e os resultados da pesquisa com esse conteúdo são ignorados.

Além disso, os prompts de IA generativa também incluem instruções para ignorar perguntas e resultados de pesquisa classificados como jailbreak, inserção de prompt e violação de privacidade.

Personalização de nós de respostas generativas para ignorar consultas de dados pessoais

É possível escrever um prompt personalizado para seu agente ou criar instruções de nó personalizadas para detectar dados pessoais ou informações comerciais confidenciais. Em seguida, você pode instruir o nó de respostas generativas a não responder.

Observação

Essa abordagem, no entanto, não impede que os dados pessoais ou informações comerciais confidenciais sejam enviados à Pesquisa do Bing ou a outras fontes de conhecimento.

Fluxo de dados pessoais para respostas generativas

As respostas generativas são reconhecimento de conversa, o que significa que o nó de respostas generativas contextualiza internamente a consulta do usuário a partir de interações anteriores durante uma conversa em vários turnos. Quaisquer consultas nas últimas conversas são contextualizadas e se tornam parte de uma consulta reescrita pelo nó de respostas generativas.

Embora os prompts do AI Builder ou o modelo Azure OpenAI com recursos de detecção de dados pessoais possam identificar dados pessoais em conversas de agentes, não é suficiente apenas verificar a última consulta do usuário antes de gerar respostas.

Alternativas para respostas generativas sem o Bing como fonte de conhecimento

Use o Índice de Pesquisa de IA do Azure como fonte de conhecimento em agentes. Esse recurso usa índices Azure AI Search predefinidos como dados de aterramento para agentes. A Pesquisa de IA do Azure fornece um mecanismo de pesquisa avançado que pode pesquisar através de uma grande coleção de documentos. Os índices Azure AI Search são criados por desenvolvedores. Isso dá aos índices a flexibilidade de pesquisar seu próprio conteúdo em áreas geográficas, enquanto ainda usam o recurso de respostas generativas para usar a IA generativa para criar uma resposta moderada e resumida.

Os usuários também podem optar por uma solução personalizada usando uma API de mecanismo de pesquisa compatível ou uma maneira de consultar o sistema de gerenciamento de conteúdo diretamente e transformar os resultados em dados para o campo fonte de dados personalizada em um nó de respostas generativas. Essa opção é usada quando os dados podem não residir em uma das fontes de conhecimento com suporte. Nesses cenários, o agente recebe dados fundamentados por meio de fluxos do Power Automate ou de solicitações HTTP. Essas opções normalmente retornam um objeto JSON, que você pode analisar em um formato de Tabela para gerar respostas.

As solicitações do Microsoft Search no Bing são feitas por HTTPS. A conexão é criptografada de ponta a ponta para maior segurança.

Coleção de dados

A Microsoft pode coletar informações de usuários finais, tais como, mas não limitado a, endereço IP de um usuário final, solicitações, tempo de envios e os resultados retornados ao usuário final, com solicitações de transação para os Serviços. Microsoft não reivindica a propriedade de quaisquer dados, informações ou conteúdo fornecido relacionado ao recurso.

Todo o acesso e uso dos Serviços está sujeito às práticas de dados fornecidas na Declaração de Privacidade.

Retenção de dados

Para consultas de pesquisa do Bing, a Microsoft deixa de identificar as consultas armazenadas removendo a totalidade do endereço IP após seis meses, e as IDs de cookie e outros identificadores de sessão cruzada que são usados para identificar uma conta ou dispositivo específico após 18 meses (https://www.microsoft.com/en-us/privacy/privacystatement#mainwherewestoreandprocessdatamodule).

Resultados da pesquisa do Bing

A operação de pesquisa em tempo real envolve cálculos algorítmicos complexos e quase instantâneos. O Bing usa algoritmos para classificar e otimizar o índice armazenado de páginas da Web disponíveis para fornecer aos usuários os melhores resultados de pesquisa da mais alta qualidade disponíveis. O rastreamento é como o Bingbot (rastreador do Bing) descobre páginas e conteúdo novos e atualizados para adicionar ao índice de pesquisa.

Frequência do rastreamento da Web do Bing

O Bingbot (rastreador do Bing) usa um algoritmo para decidir o que rastrear e com que frequência, trabalhando para minimizar seu impacto nos sites, pois rastreia bilhões de URLs todos os dias. À medida que o Bingbot rastreia a Web, ele envia informações ao Bing sobre o que encontra. O Bing prioriza páginas conhecidas relevantes que ainda não foram indexadas e aquelas detectadas como atualizadas. Essas páginas são adicionadas ao índice do Bing e os algoritmos são usados para analisar as páginas para incluí-las efetivamente nos resultados da pesquisa, incluindo determinar quais sites, artigos de notícias, imagens ou vídeos estão incluídos no índice e disponíveis quando os usuários pesquisam palavras-chave específicas.

Classificação de resultados da pesquisa

O Bing depende do aprendizado de máquina para garantir que os usuários vejam os melhores resultados para a consulta. A seguir estão os principais parâmetros de classificação impactando a pesquisa na URL fornecida como fonte de conhecimento. A importância relativa de cada um dos parâmetros a seguir pode variar de pesquisa para pesquisa e evoluir ao longo do tempo.

  1. Relevância (o conteúdo corresponde à intenção de um usuário por trás de uma consulta de pesquisa.)

  2. Envolvimento do usuário (algoritmo prefere conteúdo novo.)

  3. Frescor (interação do usuário com páginas da Web.)

O Bing projeta e aprimora continuamente seus algoritmos para fornecer a coleção mais abrangente, relevante e valiosa de resultados de pesquisa disponível.

Como os usuários podem fazer perguntas fora de contexto, a pesquisa do Bing pode ser aprimorada fornecendo outras informações específicas no prompt personalizado de Respostas Gerativas para orientar o mecanismo de pesquisa a consultar resultados relevantes. As declarações e consultas do usuário podem ser enriquecidas com dados específicos usando Fórmulas e injetadas no prompt personalizado de Respostas Gerativas.

Práticas recomendadas para melhorar a criação do índice do Bing

As diretrizes representativas a seguir ajudam na indexação eficaz de sites no Bing. Ele também ajuda a otimizar sites para aumentar as oportunidades de classificar consultas relevantes nos resultados de pesquisa do Bing.

  1. Mapas de site atualizados para que o Bing descubra URLs e conteúdos de sites.

  2. API do IndexNow, a URL do Bing ou a API de Envio de Conteúdo para refletir instantaneamente as alterações no site.

  3. Vincular todas as páginas de um site a pelo menos uma outra página detectável e rastreável como um sinal para determinar a popularidade do site.

  4. Limitar o número de páginas no site.

  5. Usando redirecionamentos conforme apropriado.

  6. Renderização dinâmica para alternar entre conteúdo renderizado do lado do cliente e pré-renderizado para o Bingbot.

  7. Evite tags como nofollow ou noindex, que impedem que os mecanismos de pesquisa indexem páginas da Web.

  8. Um arquivo robots.txt para informar aos rastreadores de mecanismos de pesquisa (Bingbot) quais páginas o rastreador pode ou não acessar.

Observação

Otimização de Mecanismo de Pesquisa (SEO) é uma habilidade especializada melhor gerenciada pelas equipes SEO/Gerenciamento de Conteúdo dentro da sua organização. Para obter mais informações, consulte Diretrizes para Webmasters do Bing.

Perguntas frequentes para respostas generativas