Partilhar via


Recomendações para conceber uma estratégia de resposta a emergências

Aplica-se a esta Power Platform recomendação de lista de verificação de Excelência Operacional bem arquitetada:

OE:07 Desenvolva uma prática eficaz de operações de emergência. Certifique-se de que a sua carga de trabalho emite sinais significativos do estado de funcionamento. Colete os dados resultantes e use-os para gerar alertas acionáveis que decretem respostas de emergência por meio de painéis e consultas. Defina claramente as responsabilidades humanas, tais como rotações de permanência, gestão de incidentes, acesso a recursos de emergência e execução post-mortem.

Este guia descreve as recomendações para a conceção de uma estratégia de resposta a emergências. Algumas de suas cargas de trabalho podem ser de missão crítica, e os problemas que surgem ao longo do ciclo de vida de uma carga de trabalho podem ser graves o suficiente para justificar a declaração de emergência. Pode implementar processos e procedimentos rigorosamente controlados e focados que a sua equipa pode seguir para garantir que um problema é tratado de maneira calma e ordenada. As emergências elevam naturalmente os níveis de stress de todos e podem levar a um ambiente caótico se a sua equipa não estiver bem preparada. Para ajudar a minimizar o stress e a confusão, estruture uma estratégia de resposta, partilhe a estratégia de resposta com a sua organização e realize formação regular em resposta a emergências.

Principais estratégias de design

Uma estratégia de resposta a emergências deve ser um conjunto bem definido de processos e procedimentos. Cada processo e procedimento deve ter scripts para garantir que cada passo progrida sua equipa para resolver um problema de forma rápida e segura. Para desenvolver uma estratégia de resposta a emergências, considere a seguinte descrição geral:

  • Pré-requisitos
    • Desenvolver um sistema de monitorização
    • Criar um plano de resposta a incidentes
  • Fases do incidente
    • Deteção e contenção
    • Triagem
  • Fases pós-incidente
    • Análise de causa raiz (RCA)
    • Post mortem
  • Atividade contínua
    • Simulações de resposta a emergências

As secções seguintes fornecem recomendações para cada uma destas fases.

Sistema de monitorização

Para ter uma estratégia de resposta de emergência robusta, você precisa ter um sistema de monitoramento robusto, ou plataforma de observabilidade, em vigor. A sua plataforma de observabilidade deve ter as seguintes características:

  • Monitoramento holístico: certifique-se de monitorar completamente sua carga de trabalho de uma perspetiva de configuração e aplicativo e inclua monitoramento de infraestrutura se os componentes de sua carga de trabalho estiverem hospedados na nuvem ou em no local. Certifique-se de que todos os componentes da sua carga de trabalho estão cobertos pela sua estratégia de monitoramento. Por exemplo, se sua carga de trabalho interage com recursos do Azure ou um sistema no local, inclua esses componentes em seu monitoramento.

  • Registro detalhado: habilite o registro detalhado para seus componentes para ajudar nas investigações ao fazer a triagem de um problema. Estruture os registos de modo a que sejam fáceis de gerir. Envie automaticamente registos para sinks de dados para estarem preparados para análise.

  • Painéis úteis: crie painéis com base no seu modelo de integridade que são adaptados para cada equipa em sua organização. Diferentes equipas são responsáveis por diferentes aspetos do estado de funcionamento da carga de trabalho.

  • Alertas acionáveis: crie alertas que são úteis para suas equipes de carga de trabalho. Evite alertas que não exijam ação das suas equipas. Demasiados alertas deste tipo podem levar as pessoas a ignorar ou bloquear as notificações de alerta.

  • Notificações automáticas: certifique-se de que as equipes apropriadas recebam automaticamente alertas que exijam ação delas. Por exemplo, sua equipa de suporte de Nível 1 deve receber notificações para todos os alertas, enquanto seus engenheiros de segurança só devem receber alertas para eventos de segurança.

Saiba mais em Recomendações para projetar e criar uma estrutura de monitoramento.

Plano de resposta a incidentes

A base de uma estratégia de resposta a emergências é um plano de resposta a incidentes. Tal como acontece com um plano de recuperação de desastres, defina de forma clara e completa funções, responsabilidades e procedimentos para responder a um incidente. O plano deve ser um documento com versão controlada que está sujeito a revisões regulares que garantem que está atualizado.

Defina claramente os seguintes componentes no seu plano.

Funções

Identifique um gestor de resposta a incidentes. Esta pessoa é a proprietária do incidente, desde o início até a remediação e à análise da causa raiz. Um gestor de resposta incidentes garante que os processos são seguidos e as partes apropriadas são informadas à medida que a equipa resposta executa o seu trabalho.

Identifique um líder do post mortem. Este indivíduo garante que os post mortems são realizados logo após a resolução do incidente. Produzem um relatório, que ajuda a aplicar as descobertas que saem do incidente.

Processos e procedimentos

A sua equipa de carga de trabalho deve definir e entender os critérios de emergência. Quando a sua equipa determina que um caso é grave, pode declarar um desastre e iniciar o plano de recuperação após desastre. Em casos menos graves, o problema pode não atender aos critérios de um desastre, mas você ainda deve considerar o problema uma emergência, o que requer iniciar o plano de resposta de emergência. As emergências podem ser internas à sua carga de trabalho, como bugs no código do aplicativo, ou resultado de um problema com uma dependência da carga de trabalho, como a indisponibilidade de uma API ou de um banco de dados. Uma emergência também pode ser causada por uma indisponibilidade do seu fornecedor (tal como um problema com o Microsoft Entra ID ou Power Platform). A equipa de suporte deve ser capaz de determinar se um problema atende aos critérios de emergência, mesmo que a equipa não tenha visibilidade do problema subjacente.

Defina com precisão os planos de comunicação e escalamento. Com base no tipo de notificação de alerta que eles recebem, certifique-se de que os membros da sua equipa de suporte de Nível 1 possam entrar em contato facilmente com as equipes apropriadas para problemas crescentes.

Outros itens a incluir

Documente todas as ferramentas padrão que são usadas durante incidentes para comunicação interna, como Microsoft Teams, e para rastrear as atividades ao longo do incidente, como ferramentas de emissão de tíquetes ou ferramentas de planeamento de lista de pendências.

Documente as suas credenciais de emergência, também conhecidas como contas de emergência. Inclua um guia passo a passo que descreva como devem ser utilizadas.

Crie instruções de resposta de emergência e mantenha um registro de quando as perfurações são realizadas.

Documente quaisquer medidas legais ou regulamentares necessárias, como a comunicação de violações de dados.

Deteção e contenção de incidentes

Quando tem um sistema de monitorização bem estruturado que monitoriza anomalias e o alerta automaticamente a seu respeito, pode detetar rapidamente os problemas e determinar a sua gravidade. Se o problema for considerado uma emergência, o plano pode ser iniciado. Em alguns casos, a equipa de suporte não é notificada através do sistema de monitorização. Os utilizadores poderão comunicar problemas ao suporte utilizando as vias de comunicação da equipa de suporte. Ou podem entrar em contato com pessoas com quem trabalham regularmente ou com Power Platform quem sabem que estão a trabalhar, como administradores de serviço Power Platform ou equipa do Centro de Excelência. Independentemente da forma como a equipa de suporte é notificada, devem seguir sempre os mesmos passos para validar o problema e determinar a sua gravidade. O desvio do plano de resposta pode aumentar o stress e a confusão.

Triagem

O primeiro passo na remediação do problema é identificar o componente da carga de trabalho que o está a causar. Os passos que segue durante a triagem dependem do tipo de problema. A equipa de uma determinada área de suporte de carga de trabalho deve criar procedimentos para incidentes que estejam relacionados com o seu trabalho. Por exemplo, as equipas de segurança devem fazer uma triagem dos problemas de segurança e devem seguir os scripts que desenvolvam. É importante que as equipas sigam scripts bem definidos à medida que realizam os seus esforços de triagem. Esses scripts devem ser instruções passo a passo que incluem processos de reversão para desfazer alterações que são ineficazes ou podem causar outros problemas. Depois de o problema ser resolvido, siga processos bem definidos para trazer com segurança o componente afetado de volta aos caminhos do fluxo de carga de trabalho.

Relatórios da análise de causa raiz

O proprietário do incidente ou alguém que trabalhou em estreita colaboração com ele deve criar os relatórios de análise de causa raiz (RCA). Esta estratégia garante uma contabilidade precisa do incidente. Normalmente, as organizações têm um modelo RCA definido com diretrizes sobre como as informações são apresentadas e que tipos de informação podem ou não ser partilhadas. Se você precisar criar seu próprio modelo e diretrizes, certifique-se de que as partes interessadas os analisem e aprovem.

Post mortems de incidentes

Um indivíduo imparcial deve conduzir post mortems sem culpabilização. Nas sessões post-mortem, todos partilham as suas conclusões de um incidente. Cada equipa envolvida no incidente resposta deve ser representada por indivíduos que trabalharam no incidente. Essas pessoas devem chegar à sessão preparadas com exemplos das ações que foram bem-sucedidas e áreas que podem ser melhoradas. A sessão não é um fórum para atribuir culpa pelo incidente ou problemas que possam surgir durante o resposta. O líder do post mortem deve sair da sessão com uma lista clara de itens de ação que se concentram na melhoria, tais como:

  • Melhorias no plano de resposta. Poderá ser necessário reavaliar e reescrever processos ou procedimentos para capturar melhor as ações apropriadas.
  • Melhorias no sistema de monitorização. Poderá ser necessário reavaliar os limiares para detetar mais cedo o tipo específico de incidente ou poderá ser necessário implementar uma nova monitorização para detetar comportamentos que não foram contabilizados.
  • Melhorias na carga de trabalho. O incidente pode expor uma vulnerabilidade na carga de trabalho que deve ser tratada como uma remediação permanente.

Considerações

A sua estratégia de resposta a emergências deve estar estreitamente alinhada com a sua estratégia de suporte do Power Platform global. Trabalhe com seus Power Platform administradores e a equipa do Centro de Excelência para discutir opções e processos de suporte e resposta de emergência que já possam estar definidos.

Ao definir o processo de suporte e o caminho de escalamento, é importante categorizar as soluções criadas com base na criticidade. Essa prática permite que você estabeleça processos que garantam que os aplicativos críticos tenham as proteções necessárias para apoiá-los, sem sufocar a inovação de cenários de produtividade ou sobrecarregar suas equipes de resposta incidentes. Ao definir os seus modelos de suporte, pense também num caminho de graduação. Uma solução pode começar exigindo apenas suporte de nível de produtividade, mas crescer em funcionalidade ou base de usuários para exigir um nível mais alto de suporte. Defina como os criadores podem pedir mais suporte formal e transitar uma solução para ambientes suportados.

Facilitação do Power Platform

O Power Platform integra-se com o Application Insights, que faz parte do ecossistema do Azure Monitor. Utilize esta integração para:

  • Receber telemetria sobre os diagnósticos e o desempenho capturados pela plataforma do Dataverse no Application Insights. Pode subscrever para receber telemetria sobre as operações que as aplicações realizam na sua base de dados do Dataverse e dentro de aplicações condicionadas por modelo. Esta telemetria fornece informações que pode usar para diagnosticar e resolver problemas relacionados com erros e desempenho.

  • Ligar as suas aplicações de tela ao Application Insights. Pode utilizar estas análises para diagnosticar problemas e compreender o que os utilizadores fazem com as suas aplicações. Pode recolher informações para o ajudar a impulsionar melhores decisões de negócio e a melhorar a qualidade das suas aplicações.

  • Configure Power Automate a telemetria para fluir Application Insights, por exemplo, para monitorar fluxo de cloud execuções e criar alertas para fluxo de cloud falhas de execução.

  • Capture dados de telemetria do seu Microsoft Copilot Studio copiloto para uso no Azure Application Insights. Você pode usar essa telemetria para monitorar mensagens registradas e eventos enviados de e para seu copiloto, tópicos a serem acionados durante conversas de utente e eventos de telemetria personalizados que podem ser enviados de seus tópicos.

O Application Insights é uma solução abrangente para recolha, análise e resposta a dados de monitorização de ambientes de cloud e no local. Inclui uma plataforma de alertas robusta que pode configurar para notificações automáticas e outras ações.

O Kit de Automatização do Power Platform é um conjunto de ferramentas que acelera a utilização e o suporte do Power Automate para computadores para projetos de automatização. O kit fornece ferramentas que o ajudam a gerir projetos de automatização e a monitorizá-los para estimar o dinheiro poupado e o retorno do investimento (ROI). Parte do Kit de Automação é o centro de controle, que complementa o recurso Monitor fluxo de ambiente de trabalho executa o existente. O foco principal do centro de controlo é uma vista de orquestrador para que os analistas de suporte e as organizações monitorizem, tomem medidas e alertem quando necessário.

Próximos passos