Definir "qualidade": conjuntos de avaliação
Este artigo descreve os conjuntos de avaliação e como eles ajudam a garantir a qualidade do aplicativo.
O que é um conjunto de avaliação?
Para medir a qualidade, o Databricks recomenda a criação de um conjunto de avaliação com rótulo humano. Um conjunto de avaliação é um conjunto de consultas com curadoria e representação, juntamente com respostas de verdade básica e (opcionalmente) os documentos de suporte corretos que devem ser recuperados. A entrada humana é crucial nesse processo, pois garante que o conjunto de avaliação reflita com precisão as expectativas e os requisitos dos usuários finais.
A curadoria de rótulos humanos pode ser um processo demorado. Você pode começar criando um conjunto de avaliação que inclui apenas perguntas e adicione as respostas básicas à verdade ao longo do tempo. A Avaliação do Agente de IA do Mosaico pode avaliar a qualidade da cadeia sem a verdade básica, embora, se a verdade básica estiver disponível, ela compute métricas adicionais, como correção de resposta.
Elementos de um bom conjunto de avaliação
Um bom conjunto de avaliação tem as seguintes características:
- Representante: reflete com precisão a variedade de solicitações que o aplicativo encontrará em produção.
- Desafiador: o conjunto deve incluir casos difíceis e diversos para testar efetivamente os recursos do modelo. O ideal é que ele inclua exemplos de adversários, como perguntas que tentam a injeção de solicitações ou perguntas que tentam gerar respostas inadequadas da LLM.
- Atualizado continuamente: o conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado na produção, a alteração da natureza dos dados indexados e as alterações nos requisitos do aplicativo.
O Databricks recomenda pelo menos 30 perguntas em seu conjunto de avaliação e, idealmente, 100 a 200. Os melhores conjuntos de avaliação crescerão ao longo do tempo para conter 1.000 perguntas.
Conjuntos de treinamento, teste e validação
Para evitar o sobreajuste, o Databricks recomenda dividir o conjunto de avaliação em conjuntos de treinamento, teste e validação:
- Conjunto de treinamento: cerca de 70% das perguntas. Usado para uma passagem inicial para avaliar cada experimento para identificar os mais altos potenciais.
- Conjunto de testes: cerca de 20% das perguntas. Usado para avaliar os experimentos de maior desempenho do conjunto de treinamento.
- Conjunto de validação: cerca de 10% das perguntas. Usado para uma verificação de validação final antes de implantar um experimento em produção.
A Avaliação do Agente de IA do Mosaico ajuda você a criar um conjunto de avaliação fornecendo uma interface de chat baseada na Web para que seus stakeholders forneçam comentários sobre as saídas do aplicativo. As saídas da cadeia e os comentários dos stakeholders são salvos nas Tabelas Delta, que podem ser selecionadas em um conjunto de avaliação. Consulte a curadoria de um conjunto de avaliação na seção de implementação deste livro de receitas para obter instruções práticas com código de exemplo.