Passo 3. Organize um conjunto de avaliação a partir do feedback das partes interessadas
Consulte o repositório GitHub para obter o código de exemplo nesta seção.
Tempo previsto: 10 - 60 minutos. O tempo varia de acordo com a qualidade das respostas fornecidas pelos seus stakeholders. Se as respostas forem confusas ou contiverem muitas consultas irrelevantes, você precisará gastar mais tempo filtrando e limpando os dados.
Visão geral e resultados esperados
Esta etapa inicializará um conjunto de avaliações com os comentários que as partes interessadas forneceram usando o aplicativo Revisão. Observe que você pode inicializar um conjunto de avaliação com apenas perguntas, portanto, mesmo que seus participantes só tenham conversado com o aplicativo em vez de fornecer feedback, você pode seguir esta etapa.
Para obter o esquema do conjunto de avaliação Avaliação do agente, consulte Esquema de entrada da avaliação do agente. Os campos neste esquema são referenciados no restante desta seção.
No final desta etapa, você terá um Conjunto de Avaliação que contém o seguinte:
- Pedidos com um polegar para cima 👍:
request
: conforme inserido pelo usuário.expected_response
: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta gerada pelo modelo.
- Pedidos com o polegar para baixo 👎:
request
: conforme inserido pelo usuário.expected_response
: Resposta conforme editada pelo usuário. Se o usuário não editou a resposta, a resposta é nula.
- Pedidos sem feedback (sem polegares para cima 👍 ou polegares para baixo 👎)
request
: conforme inserido pelo usuário.
Para todas as solicitações, se o usuário selecionar polegar para cima 👍 para um pedaço do retrieved_context
, o doc_uri
desse bloco será incluído para expected_retrieved_context
a pergunta.
Importante
A Databricks recomenda que seu conjunto de avaliação contenha pelo menos 30 perguntas para começar. Leia o aprofundamento do conjunto de avaliação para saber mais sobre o que é um "bom" conjunto de avaliação.
Requisitos
- As partes interessadas utilizaram o seu POC e forneceram feedback.
- Todos os requisitos das etapas anteriores.
Instruções
- Abra o bloco de anotações 04_create_evaluation_set e clique em Executar tudo.
- Inspecione o conjunto de avaliação para compreender os dados incluídos. Você precisa validar que seu conjunto de avaliação contém um conjunto representativo e desafiador de perguntas. Ajuste o conjunto de avaliação conforme necessário.
- Por padrão, seu conjunto de avaliação é salvo na tabela Delta configurada no
EVALUATION_SET_FQN
00_global_config bloco de anotações.
Próximo passo
Agora que você tem um conjunto de avaliação, use-o para avaliar a qualidade, o custo e a latência do aplicativo POC. Consulte o Passo 4. Avaliar a qualidade do POC.