Etapa 3. Coletar um conjunto de avaliações com base nos comentários dos stakeholders
Consulte o repositório do GitHub para obter o código de exemplo nesta seção.
Tempo esperado: de 10 a 60 minutos. O tempo varia de acordo com a qualidade das respostas fornecidas por seus stakeholders. Se as respostas forem confusas ou contiverem muitas consultas irrelevantes, você precisará gastar mais tempo filtrando e limpando os dados.
Visão geral e resultado esperado
Esta etapa inicializará um conjunto de avaliações com os comentários que os stakeholders forneceram usando o Aplicativo de Revisão. Observe que você pode inicializar um conjunto de avaliações apenas com perguntas, então, mesmo que seus stakeholders tenham apenas conversado com o aplicativo em vez de fornecer comentários, você pode seguir esta etapa.
Para obter o esquema do conjunto de avaliação Avaliação do Agente, consulte Esquema de entrada de Avaliação do Agente. Os campos neste esquema são mencionados no restante desta seção.
Ao final desta etapa, você terá um Conjunto de Avaliações que contém o seguinte:
- Pedidos com um polegar para cima 👍:
request
: conforme inserido pelo usuário.expected_response
: resposta conforme editado pelo usuário. Se o usuário não editou a resposta, a resposta gerada pelo modelo.
- Pedidos com um polegar para baixo 👎:
request
: conforme inserido pelo usuário.expected_response
: resposta conforme editado pelo usuário. Se o usuário não editou a resposta, a resposta será nula.
- Solicitações sem feedback (sem polegar para cima 👍 ou para baixo 👎)
request
: conforme inserido pelo usuário.
Para todas as solicitações, se o usuário selecionar o polegar para cima 👍 para uma parte do retrieved_context
, o doc_uri
dessa parte será incluído no expected_retrieved_context
para a pergunta.
Importante
O Databricks recomenda que seu conjunto de avaliações contenha pelo menos 30 perguntas para começar. Leia a análise aprofundada sobre o conjunto de avaliações para saber mais sobre o que é um conjunto de avaliações “bom”.
Requisitos
- Os stakeholders usaram sua POC e forneceram comentários.
- Todos os requisitos das etapas anteriores.
Instruções
- Abra o notebook 04_create_evaluation_set e clique em Executar tudo.
- Inspecione o conjunto de avaliações para entender os dados incluídos. Você precisa validar que o conjunto de avaliações contém um conjunto representativo e desafiador de perguntas. Ajuste o conjunto de avaliações conforme necessário.
- Por padrão, seu conjunto de avaliações é salvo na tabela Delta configurada em
EVALUATION_SET_FQN
no notebook 00_global_config.
Próxima etapa
Agora que você tem um conjunto de avaliações, use-o para avaliar a qualidade, o custo e a latência do aplicativo de POC. Veja a Etapa 4. Avaliar a qualidade da POC.