Partilhar via


Como exibir os resultados da avaliação no portal do Azure AI Foundry

A página de avaliação do portal do Azure AI Foundry é um hub versátil que não só permite visualizar e avaliar seus resultados, mas também serve como um centro de controle para otimizar, solucionar problemas e selecionar o modelo de IA ideal para suas necessidades de implantação. É uma solução única para tomada de decisões orientada por dados e melhoria de desempenho em seus projetos do Azure AI Foundry. Você pode acessar e interpretar perfeitamente os resultados de várias fontes, incluindo seu fluxo, a sessão de teste rápido do playground, a interface do usuário de envio de avaliação e o SDK. Essa flexibilidade garante que você possa interagir com seus resultados da maneira que melhor se adapte ao seu fluxo de trabalho e preferências.

Depois de visualizar os resultados da avaliação, você pode mergulhar em um exame minucioso. Isso inclui a capacidade não só de visualizar resultados individuais, mas também de comparar esses resultados em várias execuções de avaliação. Ao fazer isso, você pode identificar tendências, padrões e discrepâncias, obtendo informações inestimáveis sobre o desempenho do seu sistema de IA sob várias condições.

Neste artigo você aprende a:

  • Veja o resultado e as métricas da avaliação.
  • Compare os resultados da avaliação.
  • Compreenda as métricas de avaliação incorporadas.
  • Melhorar o desempenho.
  • Veja os resultados e as métricas da avaliação.

Encontre os resultados da sua avaliação

Ao submeter a sua avaliação, pode localizar a avaliação submetida dentro da lista de execução navegando para a página Avaliação .

Você pode monitorar e gerenciar suas execuções de avaliação dentro da lista de execução. Com a flexibilidade de modificar as colunas usando o editor de colunas e implementar filtros, você pode personalizar e criar sua própria versão da lista de execução. Além disso, você pode revisar rapidamente as métricas de avaliação agregadas em todas as execuções, permitindo que você realize comparações rápidas.

Captura de ecrã da lista de execução da avaliação.

Gorjeta

Para exibir avaliações executadas com qualquer versão do promptflow-evals SDK ou azure-ai-evaluation versões 1.0.0b1, 1.0.0b2, 1.0.0b3, habilite a alternância "Mostrar todas as execuções" para localizar a execução.

Para uma compreensão mais profunda de como as métricas de avaliação são derivadas, você pode acessar uma explicação abrangente selecionando a opção 'Saiba mais sobre métricas'. Este recurso detalhado fornece informações valiosas sobre o cálculo e a interpretação das métricas usadas no processo de avaliação.

Captura de tela dos detalhes das métricas de avaliação.

Você pode escolher uma execução específica, que o levará à página de detalhes da execução. Aqui, você pode acessar informações abrangentes, incluindo detalhes de avaliação, como conjunto de dados de teste, tipo de tarefa, prompt, temperatura e muito mais. Além disso, você pode visualizar as métricas associadas a cada amostra de dados. Os gráficos de pontuações de métricas fornecem uma representação visual de como as pontuações são distribuídas para cada métrica em todo o conjunto de dados.

Gráficos de painel de métricas

Dividimos as visualizações agregadas com diferentes tipos de suas métricas por Qualidade de IA (assistida por IA), Risco e segurança, Qualidade de IA (PNL) e Personalizada, quando aplicável. Você pode visualizar a distribuição das pontuações no conjunto de dados avaliado e ver as pontuações agregadas para cada métrica.

  • Para a Qualidade da IA (assistida por IA), agregamos calculando uma média em todas as pontuações de cada métrica. Se você calcular o Groundedness Pro, a saída é binária e, portanto, a pontuação agregada é a taxa de passagem, que é calculada por (#trues / #instances) × 100. Captura de tela da guia do painel de métricas de Qualidade de IA (assistida por IA).
  • Para métricas de risco e segurança, agregamos calculando uma taxa de defeitos para cada métrica.
    • Para métricas de danos ao conteúdo, a taxa de defeitos é definida como a porcentagem de instâncias em seu conjunto de dados de teste que ultrapassam um limite na escala de gravidade em todo o tamanho do conjunto de dados. Por padrão, o limite é "Médio".
    • Para material protegido e ataque indireto, a taxa de defeitos é calculada como a porcentagem de instâncias em que a saída é 'verdadeira' (Taxa de defeitos = (#trues / #instances) × 100). Captura de ecrã do separador do painel de métricas de risco e segurança.
  • Para métricas de Qualidade de IA (PNL), mostramos histograma da distribuição métrica entre 0 e 1. Agregamos calculando uma média em todas as pontuações de cada métrica. Captura de tela da guia do painel de Qualidade de IA (NLP).
  • Para métricas personalizadas, você pode selecionar Adicionar gráfico personalizado para criar um gráfico personalizado com as métricas escolhidas ou para exibir uma métrica em relação aos parâmetros de entrada selecionados. Captura de ecrã do pop-up de criação de gráfico personalizado.

Você também pode personalizar gráficos existentes para métricas internas alterando o tipo de gráfico.

Captura de ecrã a mostrar a alteração do tipo de gráfico.

Tabela detalhada de resultados de métricas

Dentro da tabela de detalhes de métricas, você pode realizar um exame abrangente de cada amostra de dados individual. Aqui, você pode examinar a saída gerada e sua pontuação métrica de avaliação correspondente. Esse nível de detalhe permite que você tome decisões baseadas em dados e tome ações específicas para melhorar o desempenho do seu modelo.

Alguns itens de ação potenciais com base nas métricas de avaliação podem incluir:

  • Reconhecimento de padrões: filtrando valores numéricos e métricas, você pode detalhar amostras com pontuações mais baixas. Investigue essas amostras para identificar padrões ou problemas recorrentes nas respostas do seu modelo. Por exemplo, você pode notar que pontuações baixas geralmente ocorrem quando o modelo gera conteúdo sobre um determinado tópico.
  • Refinamento do modelo: use os insights de amostras com pontuação mais baixa para melhorar a instrução do prompt do sistema ou ajustar seu modelo. Se você observar problemas consistentes com, por exemplo, coerência ou relevância, também poderá ajustar os dados ou parâmetros de treinamento do modelo de acordo.
  • Personalização de colunas: o editor de colunas permite que você crie uma exibição personalizada da tabela, concentrando-se nas métricas e nos dados mais relevantes para suas metas de avaliação. Isso pode simplificar sua análise e ajudá-lo a identificar tendências de forma mais eficaz.
  • Pesquisa por palavra-chave: A caixa de pesquisa permite que você procure palavras ou frases específicas na saída gerada. Isso pode ser útil para identificar problemas ou padrões relacionados a tópicos ou palavras-chave específicos e abordá-los especificamente.

A tabela de detalhes de métricas oferece uma grande variedade de dados que podem orientar seus esforços de melhoria do modelo, desde o reconhecimento de padrões até a personalização de sua exibição para uma análise eficiente e refinamento de seu modelo com base em problemas identificados.

Aqui estão alguns exemplos dos resultados das métricas para o cenário de resposta à pergunta:

Captura de tela dos resultados das métricas para o cenário de resposta à pergunta.

E aqui estão alguns exemplos dos resultados das métricas para o cenário de conversa:

Captura de tela dos resultados das métricas para o cenário de conversa.

Para o cenário de conversação em vários turnos, pode selecionar "Ver resultados da avaliação por turno" para verificar as métricas de avaliação para cada turno numa conversa.

Captura de tela mostrando os resultados da avaliação de exibição por link de turno na mensagem de entrada.

Captura de ecrã dos resultados da avaliação por turno.

Para uma avaliação de segurança em um cenário multimodal (texto + imagens), você pode revisar as imagens de entrada e saída na tabela de resultados de métricas detalhadas para entender melhor o resultado da avaliação. Como a avaliação multimodal é atualmente suportada apenas para cenários de conversação, você pode selecionar "Exibir resultados da avaliação por turno" para examinar a entrada e saída para cada turno.

Captura de tela dos resultados detalhados das métricas.

Captura de tela do pop-up de imagem da coluna de conversa.

Selecione a imagem para expandi-la e visualizá-la. Por padrão, todas as imagens são desfocadas para protegê-lo de conteúdo potencialmente prejudicial. Para visualizar a imagem com clareza, ative a opção "Verificar imagem desfoque".

Captura de ecrã da imagem desfocada que mostra a opção de verificação da imagem azul.

Para métricas de risco e segurança, a avaliação fornece uma pontuação de gravidade e raciocínio para cada pontuação. Aqui estão alguns exemplos de resultados de métricas de risco e segurança para o cenário de resposta à pergunta:

Captura de tela dos resultados das métricas de risco e segurança para o cenário de resposta a perguntas.

Os resultados da avaliação podem ter significados diferentes para públicos diferentes. Por exemplo, as avaliações de segurança podem gerar um rótulo para "Baixa" gravidade de conteúdo violento que pode não estar alinhado com a definição de um revisor humano de quão grave esse conteúdo violento específico pode ser. Fornecemos uma coluna de feedback humano com polegares para cima e polegares para baixo ao revisar os resultados da avaliação para revelar quais instâncias foram aprovadas ou sinalizadas como incorretas por um revisor humano.

Captura de tela dos resultados das métricas de risco e segurança com feedback humano.

Ao entender cada métrica de risco de conteúdo, você pode visualizar facilmente cada definição de métrica e escala de gravidade selecionando o nome da métrica acima do gráfico para ver uma explicação detalhada em um pop-up.

Captura de ecrã do pop-up de explicação detalhada das métricas de risco e segurança.

Se houver algo errado com a execução, você também pode depurar sua execução de avaliação com os logs.

Aqui estão alguns exemplos dos logs que você pode usar para depurar sua execução de avaliação:

Captura de tela de logs que você pode usar para depurar sua execução de avaliação.

Se você estiver avaliando um fluxo de prompt, poderá selecionar o botão Exibir em fluxo para navegar até a página de fluxo avaliado para atualizar seu fluxo. Por exemplo, adicionar instruções adicionais de meta prompt ou alterar alguns parâmetros e reavaliar.

Gerir e partilhar vista com opções de vista

Na página Detalhes da Avaliação, você pode personalizar sua exibição adicionando gráficos personalizados ou editando colunas. Uma vez personalizado, você tem a opção de salvar a exibição e/ou compartilhá-la com outras pessoas usando as opções de exibição. Isto permite-lhe rever os resultados da avaliação num formato adaptado às suas preferências e facilita a colaboração com colegas.

Captura de ecrã do menu pendente do botão de opções de visualização.

Comparar os resultados da avaliação

Para facilitar uma comparação abrangente entre duas ou mais execuções, você tem a opção de selecionar as execuções desejadas e iniciar o processo selecionando o botão Comparar ou, para uma visualização geral detalhada do painel, o botão Alternar para a visualização do painel. Esse recurso permite que você analise e compare o desempenho e os resultados de várias execuções, permitindo uma tomada de decisão mais informada e melhorias direcionadas.

Captura de ecrã da opção para comparar avaliações.

Na visualização do painel, você tem acesso a dois componentes valiosos: o gráfico de comparação de distribuição métrica e a tabela de comparação. Essas ferramentas permitem que você execute uma análise lado a lado das execuções de avaliação selecionadas, permitindo que você compare vários aspetos de cada amostra de dados com facilidade e precisão.

Captura de tela da página de avaliações métricas com a opção de selecionar avaliações manuais.

Dentro da tabela de comparação, você tem a capacidade de estabelecer uma linha de base para sua comparação passando o mouse sobre a execução específica que deseja usar como ponto de referência e definir como linha de base. Além disso, ativando a alternância 'Mostrar delta', você pode visualizar prontamente as diferenças entre a execução da linha de base e as outras execuções para valores numéricos. Além disso, com a opção 'Mostrar apenas diferença' ativada, a tabela exibe apenas as linhas que diferem entre as execuções selecionadas, ajudando na identificação de variações distintas.

Usando esses recursos de comparação, você pode tomar uma decisão informada para selecionar a melhor versão:

  • Comparação de linha de base: Ao definir uma execução de linha de base, você pode identificar um ponto de referência com o qual comparar as outras execuções. Isso permite que você veja como cada execução se desvia do padrão escolhido.
  • Avaliação numérica de valores: Ativar a opção 'Mostrar delta' ajuda a entender a extensão das diferenças entre a linha de base e outras execuções. Isso é útil para avaliar o desempenho de várias corridas em termos de métricas de avaliação específicas.
  • Isolamento de diferenças: O recurso 'Mostrar apenas diferença' simplifica sua análise, destacando apenas as áreas onde há discrepâncias entre as execuções. Isso pode ser fundamental para identificar onde melhorias ou ajustes são necessários.

Ao usar essas ferramentas de comparação de forma eficaz, você pode identificar qual versão do seu modelo ou sistema tem o melhor desempenho em relação aos seus critérios e métricas definidos, ajudando-o, em última análise, a selecionar a opção mais ideal para sua aplicação.

Captura de ecrã dos resultados da avaliação lado a lado.

Medindo a vulnerabilidade de jailbreak

Avaliar o jailbreak é uma medida comparativa, não uma métrica assistida por IA. Execute avaliações em dois conjuntos de dados diferentes com equipe vermelha: um conjunto de dados de teste adversário de linha de base versus o mesmo conjunto de dados de teste adversário com injeções de jailbreak no primeiro turno. Você pode usar o simulador de dados adversário para gerar o conjunto de dados com ou sem injeções de jailbreak.

Para entender se seu aplicativo é vulnerável a jailbreak, você pode especificar qual é a linha de base e, em seguida, ativar "Taxas de defeito de jailbreak" alternar na tabela de comparação. A taxa de defeito de jailbreak é definida como a porcentagem de instâncias em seu conjunto de dados de teste em que uma injeção de jailbreak gerou uma pontuação de gravidade mais alta para qualquer métrica de risco de conteúdo em relação a uma linha de base em todo o tamanho do conjunto de dados. Você pode selecionar várias avaliações em seu painel de comparação para visualizar a diferença nas taxas de defeitos.

Captura de tela dos resultados da avaliação lado a lado com o defeito de jailbreak ativado.

Gorjeta

A taxa de defeitos de jailbreak é comparativamente calculada apenas para conjuntos de dados do mesmo tamanho e somente quando todas as execuções incluem risco de conteúdo e métricas de segurança.

Compreender as métricas de avaliação incorporadas

Compreender as métricas incorporadas é vital para avaliar o desempenho e a eficácia da sua aplicação de IA. Ao obter informações sobre essas principais ferramentas de medição, você está mais bem equipado para interpretar os resultados, tomar decisões informadas e ajustar seu aplicativo para alcançar resultados ideais. Para saber mais sobre o significado de cada métrica, como ela está sendo calculada, seu papel na avaliação de diferentes aspetos do seu modelo e como interpretar os resultados para fazer melhorias orientadas por dados, consulte Métricas de avaliação e monitoramento.

Próximos passos

Saiba mais sobre como avaliar suas aplicações de IA generativa:

Saiba mais sobre técnicas de mitigação de danos.