Recomendações para responder a problemas de desempenho ao vivo
Aplica-se a esta Power Platform recomendação de lista de verificação de eficiência de desempenho bem arquitetada:
PE:09 | Responda a problemas de desempenho ao vivo. Planeie como resolver problemas de desempenho incorporando linhas claras de comunicação e responsabilidades. Quando ocorrer uma situação problemática, use o que aprendeu para identificar medidas preventivas e incorporá-las à sua carga de trabalho. Implemente métodos para retornar às operações normais mais rapidamente quando situações semelhantes ocorrerem. |
---|
Este guia descreve as práticas recomendadas para responder a problemas de desempenho ao vivo. Problemas de desempenho ao vivo referem-se a desafios e gargalos em tempo real que podem impedir o funcionamento ideal de uma carga de trabalho. Abordar esses problemas prontamente não só facilita a deteção imediata e a retificação de soluços de desempenho, mas também garante que a carga de trabalho atenda consistentemente aos seus padrões de desempenho. Não resolvê-los pode levar a complicações, incluindo lentidão, falhas e falta de resposta do sistema, além de degradar a experiência do utente. Eles também podem impedir que os usuários concluam suas tarefas de forma eficiente e, por sua vez, manchar a reputação da organização.
Definições
Termo | Definição |
---|---|
Correlação de dados | Alinhando logs, métricas e eventos de várias partes da sua carga de trabalho para identificar causas subjacentes. |
Análise de causa raiz | Um processo para identificar os fatores subjacentes que são responsáveis por um problema. |
Autorrecuperação | A capacidade de reparar automaticamente problemas sem intervenção humana. |
Auto-prevenção | Implementações dentro de uma carga de trabalho para evitar possíveis problemas e falhas. |
Principais estratégias de design
Quando você enfrenta um problema de desempenho ao vivo, você precisa estar preparado com os dados certos e um plano para responder ao problema. Este plano deve incluir linhas claras de comunicação e responsabilidades. O objetivo principal é identificar se os problemas de desempenho são temporários ou isolados, identificar a causa raiz do problema de desempenho e implementar soluções que facilitem um retorno rápido às operações regulares e forneçam informações sobre o incidente. A integração de medidas preventivas no seu fluxo de trabalho é uma estratégia fundamental. O objetivo é evitar que o mesmo problema aconteça novamente ou diminuir seus efeitos no desempenho se não for evitável.
Prepare-se para os problemas
A resposta ideal para problemas de desempenho no local ao vivo é precisa e rápida. Precisão e velocidade na remediação de desempenho exigem preparação. Para responder efetivamente a problemas de desempenho ao vivo, é crucial monitorar as principais métricas de desempenho, identificar a causa raiz dos problemas e implementar soluções ou otimizações apropriadas. Para executar essas etapas, talvez seja necessário analisar logs de carga de trabalho, realizar testes de desempenho e otimizar código ou configurações.
Os exemplos a seguir descrevem algumas áreas críticas de preparação:
Tenha diagramas de arquitetura precisos. Os diagramas de arquitetura devem incluir todos os componentes e mostrar como eles interagem. A representação visual pode ajudar a identificar gargalos e pontos únicos de falha que podem levar à degradação ou indisponibilidade do desempenho. O ideal é que você detete e remova esses problemas antes que eles causem problemas, mas ter um diagrama atualizado pode ajudá-lo a identificar problemas em momentos de alto estresse.
Verifique o acesso aos dados. Dados e logs de processos de monitoramento são essenciais para responder a problemas de desempenho em tempo real e conduzir análises de causa raiz. Mas é importante manter a integridade e confidencialidade dos dados. Responder a problemas de desempenho no local ao vivo geralmente requer acesso a dados subjacentes que podem não estar normalmente acessíveis. Você precisa garantir que o pessoal tenha acesso aos dados de que precisa quando surgem problemas. Mas você só deve conceder acesso com restrição de tempo e privilégios mínimos, e deve limitar esse acesso ao pessoal autorizado.
Defina alertas automáticos. Os alertas podem ajudá-lo a identificar e resolver problemas assim que eles ocorrem. Os alertas devem gerar notificações quando o desempenho da carga de trabalho se desvia das linhas de base de desempenho. Com o tempo, você deve ajustar as configurações de alerta para evitar gerar muitas ou poucas notificações. As soluções de monitoramento que você usa precisam coletar dados suficientes para gerar alertas. Estes alertas devem ser alinhados com os objetivos de desempenho e as bases de referência estabelecidas. Você deve evitar gerar alertas sobre problemas que não são relevantes para seus objetivos. Exemplos de alertas incluem degradações em tempos resposta, desempenho de chamadas de API ou plug-ins e carregamentos de Dataverse página.
Criar um plano de triagem
A criação de um plano de triagem envolve a criação de uma abordagem estruturada para identificar, escalar, analisar, priorizar e comunicar problemas de desempenho no local ao vivo. Um plano de triagem é uma estratégia para responder a problemas de desempenho ao vivo. Garante que as interrupções de desempenho sejam tratadas de forma rápida e eficaz, com funções e procedimentos claros. A maioria dos problemas de desempenho não merece protocolos de recuperação de desastres, mas eles podem afetar a funcionalidade da carga de trabalho o suficiente para exigir planeamento de triagem. Um plano de triagem bem documentado garante que todos os membros da equipa estejam alinhados e possam agir rapidamente, minimizando o impacto nos usuários e cargas de trabalho. Um plano de triagem deve incluir os seguintes componentes:
Identificação e monitorização: Implementar um sistema para identificar e monitorizar problemas de desempenho em tempo real. Você deve ter uma lista das informações de contato de pessoas que são capazes de tomar decisões ou escalar problemas para níveis mais altos. O plano deve também identificar papéis e responsabilidades. Ele precisa documentar quais contas obtêm acesso a informações protegidas e por quanto tempo.
Processo de escalonamento: defina um processo de escalonamento claro para garantir que os problemas de desempenho sejam escalados para as equipes ou indivíduos apropriados em tempo hábil. A definição do processo deve incluir informações de contacto e orientações para a escalada de problemas.
Análise de causa raiz: desenvolva um processo para conduzir uma análise de causa raiz para identificar a causa subjacente de cada problema de desempenho. O processo deve envolver a análise de logs e métricas de desempenho e a realização de testes de diagnóstico para identificar a origem de cada problema.
Priorização: estabeleça uma estrutura de priorização para determinar a gravidade dos problemas de desempenho e priorizá-los com base em seu efeito na carga de trabalho e nos usuários.
Comunicação: Crie um plano de comunicação para manter as partes interessadas informadas sobre o estatuto dos problemas de desempenho e o progresso de sua resolução. Considere atualizações regulares, relatórios de estatuto e canais de comunicação claros.
Documentação: Documente o plano de triagem, incluindo todas as suas etapas, processos e melhores práticas. Esta documentação deve ser facilmente acessível aos membros da equipa que estão envolvidos na resposta a problemas de desempenho.
Desenvolver métodos para identificar e resolver problemas
A resolução de problemas de desempenho em tempo real envolve a identificação e a abordagem de quaisquer fatores que possam causar degradação ou ineficiências de desempenho em uma carga de trabalho ativa. Os dados coletados durante o monitoramento são inestimáveis para investigar e resolver incidentes relacionados ao desempenho. Esses dados fornecem um registro histórico das métricas de desempenho. Quando você tem dados de monitoramento disponíveis, pode analisar as causas raiz e identificar os fatores contribuintes. Você deve usar todos os dados de monitoramento relevantes para entender e corrigir cada problema de desempenho. Monitore quantos picos transitórios você está a detetar e ajuste os limites de acordo.
Usar análise de causa raiz
A análise da causa raiz requer testes de hipóteses. Depois de revisar os dados de monitoramento, você deve listar as causas potenciais do problema de desempenho e testá-las.
Para conduzir uma análise de causa raiz em um problema de desempenho ao vivo, siga estas etapas:
Reúna informações. Colete o máximo de informações possível sobre o problema de desempenho. Os exemplos incluem mensagens de erro, logs, métricas de desempenho e quaisquer outros dados relevantes. Inclua também informações sobre os usuários que relataram o problema, como dispositivo, rede e localização.
Defina o problema. Defina claramente o problema, identificando os sintomas e o efeito que o problema tem na carga de trabalho ou nos usuários.
Investigue potenciais causas. Reduza o escopo da análise identificando o componente ou área específica da carga de trabalho onde o problema de desempenho está a ocorrer. Identifique as causas potenciais do problema de desempenho com base nas informações coletadas. Esse processo pode envolver a análise de código, definições de configuração, infraestrutura ou dependências externas.
Correlacione dados. Aprofunde-se nos dados coletados para identificar padrões, anomalias ou correlações que possam contribuir para o problema de desempenho. A correlação de dados é fundamental para identificar problemas e causas de desempenho. Pode envolver a revisão de logs, a análise de métricas de desempenho e a realização de testes.
Hipóteses de teste. Formule hipóteses com base nas causas potenciais que você identifica. Realize testes para validar ou refutar suas hipóteses. Você deve usar um ambiente de teste para ver se pode replicar o erro.
Implementar soluções. Depois de identificar uma causa raiz, desenvolva e implemente soluções para resolver o problema de desempenho.
Monitorizar e validar. Depois de implementar as soluções, monitore continuamente a carga de trabalho para garantir que o problema de desempenho seja resolvido. Valide a eficácia das soluções monitorando métricas de desempenho e feedback dos usuários.
Compensação: As etapas de uma análise de causa raiz, como identificar possíveis causas, testar hipóteses e documentar a análise, podem ser demoradas. Para correlacionar problemas de desempenho, você também precisa coletar e armazenar dados. O tempo e a infraestrutura necessários podem adicionar trabalho significativo às equipes de operações e custo à carga de trabalho.
Risco: Se você executar uma análise de causa raiz sem guarda-corpos de segurança adequados, há o risco de expor informações confidenciais ao fornecer acesso a logs e dados.
Suporte Engage Microsoft
contacte Microsoft o Serviço de Apoio para ajudar a resolver problemas de desempenho contínuos. Microsoft Os representantes de suporte não só têm o conhecimento, as ferramentas, os recursos e a experiência para resolver problemas, mas também podem estar cientes de quaisquer problemas de desempenho global atuais ou interrupções que possam afetar sua carga de trabalho. O seu contrato de suporte determina o nível de suporte fornecido.
Muitas vezes, é melhor trabalhar em paralelo com Microsoft o Suporte. Por exemplo, considere uma estratégia na qual alguns membros da equipa colaboram com Microsoft o Suporte, enquanto outros continuam a triar e corrigir problemas de desempenho.
É importante disponibilizar as informações de contato de suporte para a equipa. Tenha em mente que Microsoft o Suporte também pode precisar de acesso aos dados para se envolver efetivamente na solução de problemas.
Para obter mais informações, consulte Obter Ajuda + Suporte em Power Platform.
Aprenda com as descobertas
Depois de corrigir um problema de desempenho do site ao vivo, você precisa revisar o que aconteceu. O objetivo é aprender com os problemas de desempenho, não apenas identificar problemas. A melhor maneira de aprender é através da documentação. Documente cada problema e explique como corrigi-lo. Se um fornecedor ajudou, trabalhe com ele para aprimorar sua documentação, treinar sua equipa e modificar sua carga de trabalho de acordo.
A documentação deve indicar como evitar que cada problema se repita. Junto com a documentação, você pode criar alertas refinados que ajudam a responder antecipadamente aos indicadores de problemas de desempenho.
Facilitação do Power Platform
Power Platform e o Azure fornecem várias ferramentas para ajudá-lo a responder a problemas de desempenho ao vivo:
O Azure Monitor é uma solução de monitoramento abrangente que fornece informações sobre o desempenho e a integridade de seus aplicativos e infraestrutura. O Azure Monitor oferece recursos como métricas, logs, alertas e painéis para ajudá-lo a monitorar e diagnosticar problemas de desempenho. Power Platform aplicativos e automação podem se integrar ao Azure Monitor usando o Application Insights recurso. A telemetria padrão, juntamente com eventos de rastreamento personalizados, pode ser registrada e analisada.
Application Insights é um serviço de gerenciamento de desempenho de aplicativos (APM) que ajuda desenvolvedores e profissionais de DevOps a monitorar aplicativos ativos. Ele deteta automaticamente anomalias de desempenho, coleta logs e eventos no nível do aplicativo e fornece ferramentas de análise para diagnosticar problemas. Power Platform integra-se com Application Insights.
O Log Analytics é um serviço que coleta e analisa dados de log de várias fontes, incluindo aplicativos, máquinas virtuais e recursos do Azure. Ao usar o Log Analytics, você pode consultar e analisar dados de log para obter informações sobre o desempenho e o comportamento de seus aplicativos. Considere usar o Log Analytics se sua carga de trabalho usar recursos do Azure.
O Verificador de Soluções realiza análises estáticas avançadas em suas soluções em relação a um conjunto de regras de práticas recomendadas e identifica padrões problemáticos. Resolva quaisquer problemas relacionados ao desempenho antes de implantar a solução na produção para evitar problemas de desempenho no local ao vivo.
Lista de verificação de eficiência de desempenho
Consulte o conjunto completo de recomendações.