Avaliar o desempenho de seus aplicativos de IA generativa

Concluído

Quando você quiser criar um copiloto personalizado, use o fluxo de prompts para desenvolver o aplicativo de chat. Você pode avaliar o desempenho de um copiloto avaliando as respostas depois de executar seu fluxo.

Testar seu fluxo com prompts individuais

Durante o desenvolvimento ativo, você pode testar o fluxo de chat que está criando usando o recurso de chat quando tiver uma sessão de computação em execução:

Captura de tela da conversa em um fluxo de prompt no Estúdio de IA do Azure.

Quando você testa seu fluxo com um prompt individual na janela de chat, seu fluxo é executado com sua entrada fornecida. Depois de ser executado com sucesso, uma resposta é mostrada na janela de chat. Você também pode explorar a saída de cada nó individual do seu fluxo para entender como a resposta final foi construída:

Captura de tela da saída de um nó individual em um fluxo de chat.

Testar automaticamente seu fluxo com fluxos de avaliação

Para avaliar um fluxo de chat em massa, você pode executar avaliações automatizadas. Você pode usar as avaliações automatizadas internas ou definir suas avaliações personalizadas criando seu próprio fluxo de avaliação.

Avaliar com métricas com curadoria da Microsoft

As métricas internas ou com curadoria da Microsoft incluem as seguintes:

  • Desempenho e qualidade:

    • Coerência: Mede até que ponto o aplicativo de IA generativo consegue produzir uma saída com fluência suave, leitura natural e que se assemelhe à linguagem humana.
    • Fluência: Mede a proficiência da linguagem da resposta prevista de um aplicativo de IA generativo.
    • Similaridade de GPT: Mede a similaridade entre uma frase de dados de origem (verdade básica) e a resposta gerada por um aplicativo de IA generativo.
    • Medida F: Mede a proporção do número de palavras entre a previsão do aplicativo de IA generativo e os dados de origem (verdade básica).
    • Fundamentação: Mede até que ponto as respostas geradas pelo aplicativo de IA gerativo se alinham às informações da fonte de entrada.
    • Relevância: Mede até que ponto as respostas geradas pelo aplicativo de IA gerativa são pertinentes e diretamente relacionadas às perguntas fornecidas.
  • Risco e segurança:

    • Conteúdo relacionado a automutilação: Mede a disposição do aplicativo de IA generativo para produzir conteúdo relacionado a automutilação.
    • Conteúdo de ódio e injusto: Mede a predisposição do aplicativo de IA generativo para produzir conteúdo de ódio e injusto.
    • Conteúdo violento: Mede a predisposição do aplicativo de IA generativo para produzir conteúdo violento.
    • Conteúdo sexual: Mede a predisposição do aplicativo de IA generativo para produzir conteúdo sexual.

Captura de tela da configuração de avaliações selecionadas.

Para avaliar o fluxo de chat com as avaliações automatizadas internas, você precisa:

  1. Crie um conjunto de dados.
  2. Crie uma nova avaliação automatizada no Estúdio de IA do Azure.
  3. Selecione um fluxo ou um conjunto de dados com saídas geradas pelo modelo.
  4. Selecione as métricas que deseja usar para avaliação.
  5. Execute o fluxo de avaliação.
  6. Revise os resultados.

Captura de tela do painel de métricas no Estúdio de IA do Azure.

Dica

Saiba mais sobre as métricas de avaliação e monitoramento

Criar métricas de avaliação personalizadas

Como alternativa, você pode criar seu próprio fluxo de avaliação personalizado, no qual você define como a saída do fluxo de chat deve ser avaliada. Por exemplo, você pode avaliar a saída usando código Python ou usando um nó de Modelo de Linguagem Grande (LLM) para criar uma métrica assistida por IA. Vamos explorar como um fluxo de avaliação funciona com um exemplo simples.

Diagrama de um fluxo de avaliação comparado a um fluxo de chat.

Você pode ter um fluxo de chat que usa a pergunta de um usuário como entrada (1). O fluxo processa a entrada usando um modelo de linguagem e formata a resposta com código Python (2). Por fim, retorna a resposta como saída (3).

Para avaliar o fluxo de chat, você pode criar um fluxo de avaliação. O fluxo de avaliação usa a pergunta do usuário original e a saída gerada como entrada (4). O fluxo o avalia com um modelo de linguagem e usa o código Python para definir uma métrica de avaliação (5), que é retornada como saída (6).

Ao criar um fluxo de avaliação, você pode escolher como avaliar um fluxo de chat. Você pode usar um modelo de linguagem para criar suas próprias métricas personalizadas assistidas por IA. No prompt, você pode definir a métrica que deseja medir e a escala de classificação que o modelo de linguagem deve usar. Por exemplo, um prompt de avaliação pode ser:

# Instructions
You are provided with the input and response of a language model that you need to evaluate on user satisfaction.

User satisfaction is defined as whether the response meets the user’s question and needs, and provides a comprehensive and appropriate answer to the question.

Assign each response a score of 1 to 5 for user satisfaction, with 5 being the highest score.

Depois de criar um fluxo de avaliação, você pode avaliar um fluxo de chat fornecendo um conjunto de dados de teste e executando o fluxo de avaliação.

Captura de tela de um fluxo de avaliação no Estúdio de IA do Azure.

Ao usar um modelo de linguagem em um fluxo de avaliação, você pode examinar os resultados no rastreamento de saída:

Captura de tela de um resultado de um fluxo de avaliação personalizado.

Além disso, você pode adicionar um nó Python no fluxo de avaliação para agregar os resultados de todos os prompts em seu conjunto de dados de teste e retornar uma métrica geral.