Avaliar manualmente o desempenho de um modelo

7 minutos

Durante as fases iniciais do desenvolvimento de seu aplicativo de IA generativa, você deseja experimentar e iterar rapidamente. Para avaliar facilmente se o modelo de idioma e o aplicativo selecionados, criados com fluxo de prompt, atendem aos seus requisitos, você pode avaliar manualmente modelos e fluxos no portal do Azure AI Foundry.

Mesmo quando seu modelo e aplicativo já estão em produção, as avaliações manuais são uma parte crucial da avaliação de desempenho. Como as avaliações manuais são feitas por humanos, elas podem fornecer informações que as métricas automatizadas podem perder.

Vamos explorar como você pode avaliar manualmente seus modelos e aplicativos selecionados no portal do Azure AI Foundry.

Prepare seus prompts de teste

Para iniciar o processo de avaliação manual, é essencial preparar um conjunto diversificado de prompts de teste que reflitam a variedade de consultas e tarefas que seu aplicativo deve lidar. Esses prompts devem abranger vários cenários, incluindo perguntas comuns do usuário, casos de borda e possíveis pontos de falha. Ao fazer isso, você pode avaliar de forma abrangente o desempenho do aplicativo e identificar áreas para melhorias.

Teste o modelo selecionado no playground de bate-papo

Ao desenvolver um aplicativo de bate-papo, você usa um modelo de linguagem para gerar uma resposta. Você cria um aplicativo de chat desenvolvendo um fluxo de prompt que encapsula a lógica do seu aplicativo de chat, que pode usar vários modelos de linguagem para gerar uma resposta a uma pergunta do usuário.

Antes de testar a resposta do aplicativo, você pode testar a resposta do modelo de idioma selecionado para verificar se o modelo individual funciona conforme o esperado. Você pode testar um modelo implantado no portal do Azure AI Foundry interagindo com ele no playground de bate-papo.

O playground de bate-papo é ideal para o desenvolvimento inicial. Você pode inserir um prompt, ver como o modelo responde e ajustar o prompt ou a mensagem do sistema para fazer melhorias. Depois de aplicar as alterações, você pode testar um prompt novamente para avaliar se o desempenho do modelo realmente melhorou.

Avalie vários prompts com avaliações manuais

O playground de bate-papo é uma maneira fácil de começar. Quando quiser avaliar manualmente vários prompts mais rapidamente, você pode usar o recurso de avaliações manuais. Esse recurso permite carregar um conjunto de dados com várias perguntas e, opcionalmente, adicionar uma resposta esperada, para avaliar o desempenho do modelo em um conjunto de dados de teste maior.

Você pode classificar as respostas do modelo com o recurso de polegares para cima ou para baixo. Com base na classificação geral, você pode tentar melhorar seu modelo alterando o prompt de entrada, a mensagem do sistema, o modelo ou os parâmetros do modelo.

Ao usar avaliações manuais, você pode avaliar mais rapidamente o desempenho do modelo com base em um conjunto de dados de teste diversificado e melhorar o modelo com base nos resultados do teste.

Depois de avaliar manualmente um modelo individual, você pode integrar o modelo em um aplicativo de bate-papo com fluxo de prompt. Qualquer fluxo criado com fluxo de prompt também pode ser avaliado manual ou automaticamente. A seguir, vamos explorar a avaliação de fluxos.

Avaliar manualmente o desempenho de um modelo

Prepare seus prompts de teste

Teste o modelo selecionado no playground de bate-papo

Avalie vários prompts com avaliações manuais

Comentários