Otimização de desempenho para cargas de trabalho de aplicativos inteligentes
A eficiência de desempenho é a capacidade de sua carga de trabalho de dimensionar com eficiência para atender às demandas impostas pelos usuários. Monitorar o desempenho de sua carga de trabalho de aplicativo inteligente é fundamental para garantir que ele opere de forma eficaz e eficiente.
A equipe de carga de trabalho precisa estabelecer as principais métricas de desempenho, revisar regularmente o desempenho do sistema e diagnosticar quaisquer problemas prontamente. Procedimentos eficazes de monitoramento e diagnóstico ajudam a manter a confiabilidade do sistema e a satisfação do usuário.
Definir metas de desempenho
A identificação das principais métricas de desempenho envolve a determinação das medições essenciais que acompanham o progresso em direção ao alcance das metas de desempenho da carga de trabalho. Essas métricas fornecem uma maneira quantificável de medir e melhorar a eficiência do desempenho.
Ao identificar as principais métricas nas quais se concentrar, considere métricas relacionadas à capacidade, ao tempo de resposta, à taxa de deflexão, ao engajamento e aos resultados:
Capacidade: taxa de transferência e simultaneidade são métricas de capacidade de amostra. Taxa de transferência se refere à capacidade de lidar com um número específico de transações em um determinado período. Por exemplo, um agente pode lidar com 200.000 sessões de chat por mês. Considere também as variações sazonais e o pico máximo previsto de conversas simultâneas. Simultaneidade é uma medida de usuários ou ações simultâneas. Por exemplo, um agente pode lidar com um máximo de 5.000 conversas simultâneas durante a alta temporada. Compreender os volumes de destino auxilia na validação da arquitetura e da escala de destino.
Tempo de resposta: a latência e o tempo de carregamento são métricas comuns de tempo de resposta. Latência é o tempo necessário para responder a uma solicitação (200 milissegundos). Tempo de carregamento é o tempo necessário para que um agente se torne ativo e responda à primeira mensagem. Compreenda a latência máxima esperada para o agente responder a consultas e defina uma abordagem para lidar com ações de longa execução (por exemplo, aguardar que um sistema externo retorne dados).
Taxa de deflexão: no contexto da IA conversacional, a deflexão é um indicador que representa a porcentagem de solicitações que são concluídas de forma de autoatendimento que, de outra forma, seriam tratadas por representantes do serviço de atendimento ao consumidor. Em outras palavras, refere-se ao número de tarefas que uma equipe não precisa mais lidar devido à automação. Otimizar a taxa de deflexão do agente é uma das principais áreas de foco para as organizações atingirem seus objetivos de negócios, desde o retorno sobre o investimento (ROI) e a satisfação do cliente (CSAT), até a melhoria do desempenho geral do agente. O Microsoft Copilot Studio fornece uma visão geral do desempenho do seu agente, incluindo indicadores-chave como taxa de resolução, taxa de escalonamento e CSAT.
Participação e resultados: rastrear engajamento e resultados da conversa é crucial para medir as métricas de desempenho do agente e identificar áreas para melhorias. Saiba mais em Medindo o engajamento do agente e Medindo os resultados do agente.
Planejamento de desempenho
Os recursos em sua carga de trabalho têm limitações de desempenho. As limitações de desempenho se aplicam aos recursos de cada serviço. Você precisa entender as limitações dos recursos em sua carga de trabalho e considerar essas limitações em suas decisões de design. Por exemplo, você deve saber se as limitações de recursos exigem que você altere a abordagem de design ou altere os recursos completamente.
- Entender os volumes de destino. Os volumes de destino ajudam a validar a arquitetura e a escala de destino, os aspectos de licenciamento do agente e o efeito potencial no armazenamento de Dataverse para transcrições de conversas.
- Entenda os limites da plataforma. Ao integrar sua carga de trabalho de aplicativo inteligente com sistemas externos, por exemplo, através de solicitações do Power Automate ou do HTTP, é importante validar se cada componente pode lidar com a carga.
- Identificar gargalos. Meça a taxa de transferência e os tempos de resposta para identificar os componentes do sistema que podem se tornar problemáticos à medida que a carga de trabalho aumenta. Identifique gargalos no processo de ponta a ponta usando recursos de análise de mineração de processos, como retrabalho e análise de causa raiz.
Saiba mais: Recomendações para planejamento de desempenho
Monitoramento de desempenho
A otimização de desempenho requer dados para medir o desempenho atual de uma carga de trabalho ou de um fluxo em relação às metas de desempenho. Colete uma quantidade e variedade de dados suficientes para medir com precisão o desempenho do código e da infraestrutura em relação às metas de desempenho definidas. Certifique-se de que cada componente e fluxo dentro da carga de trabalho gere automaticamente métricas e logs contínuos e significativos.
Monitore atentamente o desempenho da carga de trabalho de seu aplicativo inteligente para garantir que ele opere com o máximo de eficácia e eficiência.
O Copilot Studio fornece análises abrangentes prontas para uso que permitem que você entenda o uso e os principais indicadores de desempenho de um agente.
Você pode exibir relatórios relacionados a:
- Desempenho e uso
- Satisfação do cliente
- Informações da sessão
- Uso do tópico
- Sessões cobradas
Além dos recursos analíticos nativos no Copilot Studio, você pode enviar dados de telemetria para o Application Insights. Saiba mais em Capturar telemetria com o Application Insights. Monitore continuamente o desempenho e detecte anomalias usando ferramentas como Azure Monitor, Log Analytics, Application Insights e alertas.
Defina os indicadores-chave de desempenho (KPIs) que você pretende monitorar para medir o sucesso da carga de trabalho do aplicativo inteligente, como taxa de interação, taxa de resolução e taxa de deflexão. Primeiro, revise os painéis nativos para entender os dados disponíveis. Em seguida, decida se a criação de um relatório personalizado atenderia melhor às suas necessidades específicas.
Saiba mais:
Otimização contínua de desempenho
A otimização proativa do desempenho envolve a implementação de medidas para melhorar e aprimorar o desempenho da carga de trabalho antes que surjam problemas. As medidas proativas incluem a identificação de possíveis gargalos, o monitoramento de métricas de desempenho e a implementação de otimizações para garantir que a carga de trabalho seja executada com eficiência e atenda às metas de desempenho.
Para aprimorar continuamente sua carga de trabalho de aplicativo inteligente, agende revisões regulares do desempenho do agente:
Indicador de desempenho | Definição |
---|---|
Taxa de resolução | Porcentagem de solicitações de usuário que são resolvidas com êxito pelo agente sem exigir encaminhamento para um representante de atendimento ao cliente. |
Taxa de participação | Porcentagem do total de sessões engajadas. Uma sessão é considerada engajada quando um usuário interage com o agente de forma significativa, como acionando um tópico não relacionado ao sistema, escalando a sessão ou invocando um tópico de fallback. |
Taxa de abandono | Porcentagem de sessões engajadas que terminam sem chegar a uma resolução ou escalonamento. Basicamente, mede a frequência com que os usuários saem ou param de interagir com o agente antes que seu problema seja resolvido ou escalado para um representante. |
Taxa de escalonamento | A porcentagem de sessões engajadas que são escalonadas para um representante. Essa métrica é essencial para entender com que frequência o agente não consegue resolver as consultas do usuário por conta própria e requer intervenção humana. |
Enunciados não reconhecidos | Ocorre quando o modelo de reconhecimento de linguagem natural (NLU) do agente não consegue corresponder uma entrada do usuário a qualquer intenção ou tópico predefinido. O sistema não consegue determinar a intenção do usuário com base na entrada fornecida. |
CSAT | Satisfação do cliente. |
Tópicos com baixa resolução | Refere-se a tópicos de conversa que frequentemente não conseguem resolver as consultas do usuário de forma eficaz. Esses tópicos geralmente levam à insatisfação do usuário, abandono ou encaminhamento a um representante. |
Esta revisão ajuda a priorizar a lista de pendências de atualizações do agente. Por exemplo, os enunciados não reconhecidos frequentemente são encaminhados para um representante do serviço de atendimento ao consumidor, aproveite a oportunidade para melhorar a deflexão. Analise padrões de usuário que disparam fallback e declarações não reconhecidas e treine tópicos existentes ou crie novos para equipar o agente para atender melhor às necessidades do usuário.
Saiba mais: