Compartilhar via


Habilitar a medição: infraestrutura de suporte

Este artigo detalha a infraestrutura necessária para medir a qualidade e como o Databricks a fornece. Medir a qualidade não é fácil e requer um investimento significativo em infraestrutura.

Log de rastreamento detalhado

O núcleo da lógica do aplicativo RAG é uma série de etapas na cadeia. Para avaliar e depurar a qualidade, você precisa implementar a instrumentação que acompanha as entradas e saídas da cadeia, juntamente com cada etapa da cadeia e suas entradas e saídas associadas. A instrumentação que você colocou em prática deve funcionar da mesma maneira no desenvolvimento e na produção.

No Databricks, o MLflow Tracing fornece essa funcionalidade. Com o log de rastreamento do MLflow, você instrumenta seu código em produção e obtém os mesmos rastreamentos durante o desenvolvimento e em produção. Os rastreamentos de produção são registrados como parte da tabela de inferência.

Interface do usuário de revisão de stakeholder

Na maioria das vezes, como desenvolvedor, você não é um especialista em domínio no conteúdo do aplicativo que está desenvolvendo. Para coletar comentários de especialistas humanos que podem avaliar a qualidade de saída do aplicativo, você precisa de uma interface que permita que eles interajam com as versões iniciais do aplicativo e forneçam comentários detalhados. Além disso, você precisa de uma maneira de carregar saídas de aplicativo específicas para que os stakeholders avaliem a sua qualidade.

Esta interface deve acompanhar as saídas do aplicativo e os comentários associados de maneira estruturada, armazenando o rastreamento completo do aplicativo e comentários detalhados em uma tabela de dados.

No Databricks, o Aplicativo de revisão de avaliação do agente fornece essa funcionalidade.

Estrutura de métricas de qualidade, custo e latência

Você precisa de uma maneira de definir as métricas que medem de forma abrangente a qualidade de cada componente da cadeia e do aplicativo de ponta a ponta. O ideal é que a estrutura forneça um conjunto de métricas padrão prontas, além de dar suporte à personalização, para que você possa adicionar métricas que testam aspectos específicos de qualidade exclusivos da sua empresa.

No Databricks, a Avaliação do Agente fornece uma implementação pronta para uso, usando modelos de avaliação LLM hospedados, para as métricas de qualidade, custo e latência necessárias.

Agente de avaliação

Você precisa de uma maneira de obter saídas de maneira rápida e eficiente de sua cadeia para cada pergunta em seu conjunto de avaliação e avaliar cada saída nas métricas relevantes. O agente deve ser o mais eficiente possível, pois você executará a avaliação após cada experimento em que tentar melhorar a qualidade.

No Databricks, a Avaliação do Agente fornece um agente de avaliação integrado ao MLflow.

Gerenciamento do conjunto de avaliação

Seu conjunto de avaliação é um conjunto de perguntas que você atualizará iterativamente ao longo do ciclo de vida de desenvolvimento e produção do aplicativo.

No Databricks, você pode gerenciar o seu conjunto de avaliação como uma Tabela Delta. Ao avaliar com o MLflow, o MLflow registrará automaticamente um instantâneo da versão do conjunto de avaliação usado.

Estrutura de acompanhamento de experimentos

Durante o desenvolvimento do aplicativo, você tentará realizar vários experimentos diferentes. Uma estrutura de acompanhamento de experimentos permite que você registre cada experimento e acompanhe suas métricas em comparação com outros experimentos.

No Databricks, o MLflow fornece recursos de acompanhamento de experimentos.

Estrutura de parametrização de cadeia

Muitos experimentos que você realiza exigem que você mantenha a constante de código da cadeia durante a iteração em vários parâmetros usados pelo código. Você precisa de uma estrutura que permita fazer isso.

No Databricks, a configuração de modelo do MLflow fornece esses recursos.

Monitoramento online

Depois de implantado, você precisa de uma maneira de monitorar a integridade do aplicativo e a qualidade, o custo e a latência em andamento.

No Databricks, o Serviço de Modelo fornece monitoramento de integridade do aplicativo e o Monitoramento do Lakehouse fornece saídas contínuas para um painel e monitora a qualidade, o custo e a latência.

< Anterior: Avaliar o desempenho

Próximo: Desenvolvimento orientado por avaliação >