Partilhar via


Avaliação de aplicações de IA generativa

Importante

Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

No cenário em rápida evolução da inteligência artificial, a integração das Operações de IA Generativas (GenAIOps) está transformando a forma como as organizações desenvolvem e implantam aplicativos de IA. À medida que as empresas dependem cada vez mais da IA para melhorar a tomada de decisões, melhorar as experiências dos clientes e impulsionar a inovação, a importância de uma estrutura de avaliação robusta não pode ser exagerada. A avaliação é um componente essencial do ciclo de vida da IA generativa para criar confiança em aplicações centradas em IA. Se não forem projetadas com cuidado, essas aplicações podem produzir resultados que são fabricados e sem fundamento no contexto, irrelevantes ou incoerentes, resultando em experiências ruins para os clientes ou, pior, perpetuam estereótipos sociais, promovem desinformação, expõem as organizações a ataques maliciosos ou uma ampla gama de outros impactos negativos.

Os avaliadores são ferramentas úteis para avaliar a frequência e a gravidade dos riscos de conteúdo ou comportamento indesejável em respostas de IA. A realização de avaliações iterativas e sistemáticas com os avaliadores certos pode ajudar as equipas a medir e abordar potenciais preocupações de qualidade de resposta, segurança ou proteção ao longo do ciclo de vida de desenvolvimento da IA, desde a seleção inicial do modelo até à monitorização pós-produção. Avaliação dentro da produção do GenAI Ops Lifecycle .

Diagrama do ciclo de vida GenAIOps da empresa, mostrando a seleção de modelos, a construção de um aplicativo de IA e a operacionalização.

Ao compreender e implementar estratégias de avaliação eficazes em cada estágio, as organizações podem garantir que suas soluções de IA não apenas atendam às expectativas iniciais, mas também se adaptem e prosperem em ambientes do mundo real. Vamos mergulhar em como a avaliação se encaixa nos três estágios críticos do ciclo de vida da IA

Seleção do modelo de base

O primeiro estágio do ciclo de vida da IA envolve a seleção de um modelo base apropriado. Os modelos de IA generativa variam amplamente em termos de capacidades, pontos fortes e limitações, por isso é essencial identificar qual modelo melhor se adapta ao seu caso de uso específico. Durante a avaliação do modelo base, você "compra" para comparar diferentes modelos, testando suas saídas em relação a um conjunto de critérios relevantes para sua aplicação.

As principais considerações nesta fase podem incluir:

  • Precisão/qualidade: Até que ponto o modelo gera respostas relevantes e coerentes?
  • Desempenho em tarefas específicas: o modelo pode lidar com o tipo de prompts e conteúdo necessários para seu caso de uso? Como é a sua latência e custo?
  • Preconceitos e considerações éticas: o modelo produz resultados que possam perpetuar ou promover estereótipos prejudiciais?
  • Risco e segurança: Existem riscos de o modelo gerar conteúdo inseguro ou malicioso?

Você pode explorar os benchmarks doAzure AI Foundry para avaliar e comparar modelos em conjuntos de dados disponíveis publicamente, ao mesmo tempo em que regenera os resultados de benchmark em seus próprios dados. Como alternativa, você pode avaliar um dos muitos modelos de IA generativa de base por meio do SDK de Avaliação de IA do Azure, conforme demonstrado, consulte Exemplo de pontos de extremidade de modelo de avaliação.

Avaliação pré-produção

Depois de selecionar um modelo base, o próximo passo é desenvolver um aplicativo de IA — como um chatbot alimentado por IA, um aplicativo de geração aumentada de recuperação (RAG), um aplicativo de IA agentic ou qualquer outra ferramenta de IA generativa. Após o desenvolvimento, inicia-se a avaliação da pré-produção. Antes de implantar o aplicativo em um ambiente de produção, testes rigorosos são essenciais para garantir que o modelo esteja realmente pronto para uso no mundo real.

Diagrama de avaliação de pré-produção para modelos e aplicações com as seis etapas.

A avaliação pré-produção envolve:

  • Teste com conjuntos de dados de avaliação: esses conjuntos de dados simulam interações realistas do usuário para garantir que o aplicativo de IA tenha o desempenho esperado.
  • Identificação de casos de borda: Encontrar cenários em que a qualidade de resposta do aplicativo de IA pode degradar ou produzir saídas indesejáveis.
  • Avaliação da robustez: Garantir que o modelo possa lidar com uma gama de variações de entrada sem quedas significativas na qualidade ou segurança.
  • Medição de métricas-chave: métricas como fundamentação da resposta, relevância e segurança são avaliadas para confirmar a prontidão para a produção.

A etapa de pré-produção atua como uma verificação final de qualidade, reduzindo o risco de implantação de um aplicativo de IA que não atenda aos padrões de desempenho ou segurança desejados.

Como alternativa, você também pode usar o widget de avaliação do Azure AI Foundry para testar seus aplicativos de IA generativa.

Uma vez que os resultados satisfatórios são alcançados, o aplicativo de IA pode ser implantado na produção.

Monitorização pós-produção

Após a implantação, o aplicativo de IA entra na fase de avaliação pós-produção, também conhecida como avaliação ou monitoramento on-line. Nesta fase, o modelo é incorporado dentro de um produto do mundo real e responde a consultas reais do usuário. O monitoramento garante que o modelo continue a se comportar conforme o esperado e se adapte a quaisquer alterações no comportamento ou no conteúdo do usuário.

  • Acompanhamento contínuo do desempenho: Medir regularmente a resposta do aplicativo de IA usando métricas-chave para garantir uma qualidade de saída consistente.
  • Resposta a incidentes: responder rapidamente a quaisquer saídas prejudiciais, injustas ou inadequadas que possam surgir durante o uso no mundo real.

Ao monitorar continuamente o comportamento do aplicativo de IA na produção, você pode manter experiências de usuário de alta qualidade e resolver rapidamente quaisquer problemas que surjam.

Conclusão

O GenAIOps tem tudo a ver com o estabelecimento de um processo confiável e repetível para gerenciar aplicativos de IA generativa em todo o seu ciclo de vida. A avaliação desempenha um papel vital em cada etapa, desde a seleção do modelo de base, passando pelos testes de pré-produção, até o monitoramento contínuo da pós-produção. Ao medir e abordar sistematicamente os riscos e refinar os sistemas de IA em cada etapa, as equipes podem criar soluções de IA generativas que não são apenas poderosas, mas também confiáveis e seguras para uso no mundo real.

Cheat sheet:

Propósito Processo Parâmetros
Para que está a avaliar? Identificar ou construir avaliadores relevantes - Qualidade e desempenho ( notebook de amostra de qualidade e desempenho)

- Segurança e proteção (caderno de exemplo de segurança e proteção)

- Personalizado (bloco de anotações de exemplo personalizado)
Que dados deve utilizar? Carregar ou gerar conjunto de dados relevante Simulador genérico para medir Qualidade e Desempenho (Notebook de amostra de simulador genérico)

- Simulador adversarial para medição de segurança e proteção (notebook de amostra de simulador adversarial)
Que recursos devem conduzir a avaliação? Executar avaliação - Corrida local

- Execução remota na nuvem
Qual foi o desempenho do meu modelo/aplicativo? Analisar os resultados Ver pontuações agregadas, ver detalhes, detalhes da pontuação, comparar execuções de avaliação
Como posso melhorar? Fazer alterações no modelo, aplicativo ou avaliadores - Se os resultados da avaliação não estiverem alinhados com o feedback humano, ajuste o seu avaliador.

- Se os resultados da avaliação estiverem alinhados com o feedback humano, mas não atingirem os limites de qualidade/segurança, aplique mitigações direcionadas.