Partilhar via


Otimização do desempenho para cargas de trabalho de aplicações inteligentes

A eficiência do desempenho é a capacidade da sua carga de trabalho de dimensionar eficientemente para satisfazer a procura pelos utilizadores. Monitorizar o desempenho da sua carga de trabalho de aplicações inteligentes é crucial para garantir que opera de forma eficaz e eficiente.

A equipa da carga de trabalho precisa de estabelecer métricas de desempenho importantes, rever regularmente o desempenho do sistema e diagnosticar quaisquer problemas prontamente. Procedimentos eficazes de monitorização e diagnóstico ajudam a manter a fiabilidade do sistema e a satisfação dos utilizadores.

Definir objetivos de desempenho

A identificação das principais métricas de desempenho envolve a determinação das medidas essenciais que rastreiam o progresso para alcançar os objetivos de desempenho da carga de trabalho. Estas métricas fornecem uma maneira quantificável de medir e melhorar a eficiência do desempenho.

Ao identificar as principais métricas nas quais se concentrar, considere as métricas relacionadas com a capacidade, o tempo de resposta, a taxa de deflexão e cativação e os resultados:

  • Capacidade: o débito e a simultaneidade são métricas de capacidade de amostra. O Débito refere-se à capacidade de processar um número específico de transações num determinado período de tempo. Por exemplo, um agente pode lidar com 200.000 sessões de chat por mês. Considere também as variações sazonais e o pico máximo previsto de conversas simultâneas. A Simultaneidade é uma medida de utilizadores ou ações simultâneas. Por exemplo, um agente pode lidar com um máximo de 5.000 chats simultâneos durante a temporada alta. Compreender os volumes de destino ajuda a validar a arquitetura e a escala de destino.

  • Tempo de resposta: a latência e o tempo de carregamento são métricas de tempo de resposta comuns. A Latência é o tempo que demora a responder a um pedido (200 milissegundos). O Tempo de carregamento é o tempo que um agente demora a tornar-se ativo e a responder à primeira mensagem. Compreenda a latência máxima esperada para o agente responder a consultas e defina uma abordagem para lidar com ações de longa execução (por exemplo, aguardar que um sistema externo devolva dados).

  • Taxa de deflexão: no contexto da IA conversacional, a deflexão é um indicador que representa a percentagem de pedidos concluídos de forma autónoma que, de outra forma, seriam processadas por representantes de suporte ao cliente. Por outras palavras, refere-se ao número de tarefas com que uma equipa já não precisa de lidar devido à automatização. Otimizar a taxa de deflexão do agente é uma das principais áreas de foco para as organizações atingirem os seus objetivos de negócios, desde o retorno sobre o investimento (ROI) e a satisfação do cliente (CSAT), até à melhoria do desempenho geral do agente. O Microsoft Copilot Studio fornece uma descrição geral do desempenho do seu agente, incluindo indicadores-chave como a taxa de resolução, a taxa de escalamento e CSAT.

  • Cativação e resultados: rastrear a cativação de conversas e os resultados é essencial para medir as métricas de desempenho do agente e para identificar áreas de melhoria. Mais informações em Medir a cativação do agente e Medir os resultados do agente.

Planeamento do desempenho

Os recursos na sua carga de trabalho têm limitações de desempenho. As limitações de desempenho aplicam-se às características dentro de cada serviço. Necessita de compreender as limitações dos recursos na sua carga de trabalho e considerar essas limitações nas suas decisões de design. Por exemplo, deve saber se as limitações de recursos exigem que altere a abordagem de design ou a alteração completa dos recursos.

  • Compreender os volumes de destino. Os volumes de destino ajudam a validar arquitetura e a escala de destino, os aspectos de licenciamento da IA generativa (agente) e o efeito potencial no armazenamento do Dataverse de transcrições de conversas.
  • Compreenda os limites da plataforma. Quando integra a sua carga de trabalho de aplicações inteligentes com sistemas externos, por exemplo, através de pedidos Power Automate ou HTTP, é importante validar se cada componente pode lidar com a carga.
  • Identificar estrangulamentos. Meça o débito e os tempos de resposta para identificar os componentes do sistema que podem tornar-se problemáticos à medida que a carga de trabalho aumenta. Identifique estrangulamentos no processo de ponto a ponto ao usar capacidades de análise de extração de processos, como reformulação e análise de causa raiz.

Mais informações: Recomendações para planeamento do desempenho

Monitorização do desempenho

A otimização de desempenho requer dados para medir o desempenho atual de uma carga de trabalho ou de um fluxo em relação às suas metas de desempenho. Recolha uma quantidade e variedade suficientes de dados para medir com precisão o desempenho do código e da infraestrutura em relação aos objetivos de desempenho definidos. Certifique-se de que cada componente e fluxo dentro da carga de trabalho gera automaticamente métricas e registos contínuos e significativos.

Monitorize com atenção o desempenho da sua carga de trabalho de aplicações inteligentes para garantir que opera da forma mais eficaz e eficiente.

O Copilot Studio fornece análises de origem abrangentes que lhe permitem compreender a utilização e os indicadores-chave de desempenho de um agente.

Pode ver relatórios relacionados com:

  • Desempenho e utilização
  • Satisfação do cliente
  • Informações da Sessão
  • Utilização de tópicos
  • Sessões faturadas

Para além das caraterísticas de análise nativas dentro do Copilot Studio, pode enviar dados de telemetria para o Application Insights. Mais informações em Capturar telemetria com o Application Insights. Monitorize continuamente o desempenho e detete anomalias usando ferramentas como o Azure Monitor, a Análise de Registos, o Application Insights e alertas.

Defina os indicadores-chave de desempenho (KPIs) que pretende monitorizar para medir o sucesso da sua carga de trabalho de aplicações inteligentes, como a taxa de cativação, taxa de resolução e taxa de deflexão. Primeiro, reveja os dashboards nativos para entender os dados disponíveis. Em seguida, decida se a criação de um relatório personalizado satisfará melhor as suas necessidades específicas.

Saber mais:

Otimização contínua do desempenho

Otimizar proativamente o desempenho envolve implementar medidas para melhorar o desempenho da carga de trabalho antes que surjam quaisquer problemas. Medidas proativas incluem a identificação de possíveis estrangulamentos, a monitorização de métricas de desempenho e a implementação de otimizações para garantir que a carga de trabalho é executada de forma eficiente e cumpre os objetivos de desempenho.

Para melhorar continuamente a sua carga de trabalho de aplicações inteligentes, agende revisões regulares do desempenho do agente:

Indicador de desempenho Definição
Taxa de resolução Percentagem de pedidos de utilizador que são resolvidos com êxito pelo agente sem a necessidade de escalamento para um representante de suporte ao cliente.
Taxa de interação Percentagem do total de sessões cativadas. Uma sessão é considerada cativada quando um utilizador interage com o agente de forma significativa, como acionar um tópico não pertencente ao sistema, escalar a sessão ou invocar um tópico de contingência.
Taxa de abandono Percentagem de sessões cativadas que terminam sem chegar a uma resolução ou a um escalamento. Essencialmente, mede a frequência com que os utilizadores saem ou param de interagir com o agente antes que o problema seja resolvido ou escalado para um representante.
Taxa de escalamento A percentagem de sessões cativadas que são escaladas para um representante. Esta métrica é fundamental para compreender com que frequência o agente é incapaz de resolver as consultas do utilizador por conta própria e requer intervenção humana.
Expressões não reconhecidas Ocorre quando o modelo de compreensão de linguagem natural (NLU) do agente não consegue corresponder uma entrada do utilizador a qualquer intenção ou tópico predefinido. O sistema não consegue determinar a intenção do utilizador com base na entrada fornecida.
CSAT Satisfação do cliente.
Tópicos com baixa resolução Refere-se a tópicos de conversa que, frequentemente, não conseguem resolver as consultas do utilizador de forma eficaz. Geralmente, estes tópicos levam à insatisfação dos utilizadores, ao abandono ou ao escalamento para um representante.

Esta revisão ajuda a dar prioridade ao registo de tarefas pendentes das atualizações de agente. Por exemplo, se expressões não reconhecidas forem frequentemente escaladas para um representante de suporte ao cliente, aproveite a oportunidade para melhorar a deflexão. Analise padrões de utilizador que acionam contingência e expressões não reconhecidas e prepare tópicos existentes ou crie novos tópicos para equipar o agente para satisfazer melhor as necessidades dos utilizadores.

Saber mais: