Definir "qualidade": Conjuntos de avaliação
Este artigo descreve conjuntos de avaliação e como eles ajudam a garantir a qualidade do seu aplicativo.
O que é um conjunto de avaliação?
Para medir a qualidade, a Databricks recomenda a criação de um conjunto de avaliação rotulado por humanos. Um conjunto de avaliação é um conjunto representativo e com curadoria de perguntas, juntamente com respostas fundamentadas e (opcionalmente) os documentos comprovativos corretos que devem ser recuperados. O contributo humano é crucial neste processo, uma vez que garante que o conjunto de avaliações reflete com exatidão as expectativas e os requisitos dos utilizadores finais.
A curadoria de rótulos humanos pode ser um processo demorado. Você pode começar criando um conjunto de avaliação que inclui apenas perguntas e adicionar as respostas básicas ao longo do tempo. O Mosaic AI Agent Evaluation pode avaliar a qualidade da sua cadeia sem a verdade do fundamento, embora, se a verdade do terreno estiver disponível, ele calcule métricas adicionais, como a correção da resposta.
Elementos de um bom conjunto de avaliação
Um bom conjunto de avaliação tem as seguintes características:
- Representante: reflete com precisão a variedade de solicitações que o aplicativo encontrará na produção.
- Desafiador: O conjunto deve incluir casos difíceis e diversos para testar efetivamente as capacidades do modelo. Idealmente, inclui exemplos contraditórios, como perguntas que tentam injeção imediata ou perguntas que tentam gerar respostas inadequadas do LLM.
- Continuamente atualizado: o conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado na produção, a natureza variável dos dados indexados e quaisquer alterações nos requisitos do aplicativo.
A Databricks recomenda pelo menos 30 perguntas no seu conjunto de avaliação e, idealmente, 100 a 200. Os melhores conjuntos de avaliação crescerão ao longo do tempo para conter 1.000 perguntas.
Conjuntos de treinamento, teste e validação
Para evitar sobreajustes, a Databricks recomenda dividir seu conjunto de avaliação em conjuntos de treinamento, teste e validação:
- Conjunto de treinamento: ~70% das perguntas. Usado para uma aprovação inicial para avaliar cada experimento para identificar os de maior potencial.
- Conjunto de testes: ~20% das questões. Usado para avaliar os experimentos de melhor desempenho do conjunto de treinamento.
- Conjunto de validação: ~10% das perguntas. Usado para uma verificação de validação final antes de implantar um experimento na produção.
O Mosaic AI Agent Evaluation ajuda você a criar um conjunto de avaliações, fornecendo uma interface de bate-papo baseada na Web para que as partes interessadas forneçam feedback sobre os resultados do aplicativo. Os resultados da cadeia e o feedback das partes interessadas são salvos em Tabelas Delta, que podem ser selecionadas em um conjunto de avaliação. Consulte a curadoria de um conjunto de avaliações na seção de implementação deste livro de receitas para obter instruções práticas com código de exemplo.