Habilitar a medição: infraestrutura de suporte
Este artigo detalha a infraestrutura necessária para medir a qualidade e como o Databricks a fornece. Medir a qualidade não é fácil e requer um investimento significativo em infraestrutura.
Log de rastreamento detalhado
O núcleo da lógica do aplicativo RAG é uma série de etapas na cadeia. Para avaliar e depurar a qualidade, você precisa implementar a instrumentação que acompanha as entradas e saídas da cadeia, juntamente com cada etapa da cadeia e suas entradas e saídas associadas. A instrumentação que você colocou em prática deve funcionar da mesma maneira no desenvolvimento e na produção.
No Databricks, o MLflow Tracing fornece essa funcionalidade. Com o log de rastreamento do MLflow, você instrumenta seu código em produção e obtém os mesmos rastreamentos durante o desenvolvimento e em produção. Os rastreamentos de produção são registrados como parte da tabela de inferência.
Interface do usuário de revisão de stakeholder
Na maioria das vezes, como desenvolvedor, você não é um especialista em domínio no conteúdo do aplicativo que está desenvolvendo. Para coletar comentários de especialistas humanos que podem avaliar a qualidade de saída do aplicativo, você precisa de uma interface que permita que eles interajam com as versões iniciais do aplicativo e forneçam comentários detalhados. Além disso, você precisa de uma maneira de carregar saídas de aplicativo específicas para que os stakeholders avaliem a sua qualidade.
Esta interface deve acompanhar as saídas do aplicativo e os comentários associados de maneira estruturada, armazenando o rastreamento completo do aplicativo e comentários detalhados em uma tabela de dados.
No Databricks, o Aplicativo de revisão de avaliação do agente fornece essa funcionalidade.
Estrutura de métricas de qualidade, custo e latência
Você precisa de uma maneira de definir as métricas que medem de forma abrangente a qualidade de cada componente da cadeia e do aplicativo de ponta a ponta. O ideal é que a estrutura forneça um conjunto de métricas padrão prontas, além de dar suporte à personalização, para que você possa adicionar métricas que testam aspectos específicos de qualidade exclusivos da sua empresa.
No Databricks, a Avaliação do Agente fornece uma implementação pronta para uso, usando modelos de avaliação LLM hospedados, para as métricas de qualidade, custo e latência necessárias.
Agente de avaliação
Você precisa de uma maneira de obter saídas de maneira rápida e eficiente de sua cadeia para cada pergunta em seu conjunto de avaliação e avaliar cada saída nas métricas relevantes. O agente deve ser o mais eficiente possível, pois você executará a avaliação após cada experimento em que tentar melhorar a qualidade.
No Databricks, a Avaliação do Agente fornece um agente de avaliação integrado ao MLflow.
Gerenciamento do conjunto de avaliação
Seu conjunto de avaliação é um conjunto de perguntas que você atualizará iterativamente ao longo do ciclo de vida de desenvolvimento e produção do aplicativo.
No Databricks, você pode gerenciar o seu conjunto de avaliação como uma Tabela Delta. Ao avaliar com o MLflow, o MLflow registrará automaticamente um instantâneo da versão do conjunto de avaliação usado.
Estrutura de acompanhamento de experimentos
Durante o desenvolvimento do aplicativo, você tentará realizar vários experimentos diferentes. Uma estrutura de acompanhamento de experimentos permite que você registre cada experimento e acompanhe suas métricas em comparação com outros experimentos.
No Databricks, o MLflow fornece recursos de acompanhamento de experimentos.
Estrutura de parametrização de cadeia
Muitos experimentos que você realiza exigem que você mantenha a constante de código da cadeia durante a iteração em vários parâmetros usados pelo código. Você precisa de uma estrutura que permita fazer isso.
No Databricks, a configuração de modelo do MLflow fornece esses recursos.
Monitoramento online
Depois de implantado, você precisa de uma maneira de monitorar a integridade do aplicativo e a qualidade, o custo e a latência em andamento.
No Databricks, o Serviço de Modelo fornece monitoramento de integridade do aplicativo e o Monitoramento do Lakehouse fornece saídas contínuas para um painel e monitora a qualidade, o custo e a latência.