Como se preparar para o inesperado (antes de um incidente)

19 minutos

Para garantir a preparação e minimizar o impacto dos incidentes, é essencial seguir as recomendações proativas descritas nesta unidade. Essas ações ajudarão você a entender nosso processo de comunicação de incidentes, localizar informações pertinentes e configurar notificações para receber atualizações em tempo hábil. Além disso, avaliar a resiliência dos seus aplicativos e implementar medidas recomendadas contribuirá para criar cargas de trabalho mais confiáveis, reduzindo o impacto potencial de um incidente. Por fim, revisar e implementar as melhores práticas de segurança fortalecerá seu ambiente e mitigará os riscos.

Ação nº. 1: Familiarize-se com a Integridade do Serviço do Azure no portal do Azure

Ao contrário da nossa página pública azure.status.microsoft, que fornece informações de status geral sobre interrupções amplas apenas, a Integridade do Serviço do Azure oferece detalhes personalizados de acordo com seus recursos específicos. Ele ajuda você a prever e se preparar para a manutenção planejada e outras alterações que podem afetar a disponibilidade de recursos. Você pode interagir com eventos de serviço e gerenciar ações para manter a continuidade dos negócios de seus aplicativos afetados. Ele fornece insights cruciais sobre vulnerabilidades da plataforma, incidentes de segurança e violações de privacidade no nível de serviço do Azure, permitindo uma ação rápida para proteger suas cargas de trabalho do Azure.

Agora, vamos explorar alguns dos principais recursos disponíveis na Integridade do Serviço do Azure para aprimorar sua preparação para incidentes:

Painel do Resource Health (nova experiência abordada)

Localizado na folha Integridade do Serviço no portal do Azure, o Azure Resource Health auxilia no diagnóstico e na resolução de problemas de serviço que afetam seus recursos do Azure. Os recursos, como máquinas virtuais, aplicativos Web ou bancos de dados SQL, são avaliados quanto à sua integridade com base em sinais de diferentes serviços do Azure. Se um recurso for identificado como não íntegro, o Resource Health realizará uma análise detalhada para determinar a causa raiz do problema. Ele também fornece informações sobre as ações da Microsoft para resolver problemas relacionados a incidentes e sugere etapas que você pode seguir para resolver o problema.

Painel Problemas de Serviços (nova experiência abordada)

O painel Problemas de Serviços exibe incidentes do serviço em andamento que podem afetar seus recursos. Ele permite que você acompanhe quando um problema começou e identifique os serviços e regiões afetados. Ao analisar as atualizações mais recentes, você pode obter insights sobre os esforços do Azure para resolver o incidente.

Principais recursos do painel Problemas de Serviços:

Insight em tempo real: O painel Problemas de Serviço oferece visibilidade em tempo real dos incidentes de serviço do Azure que afetam suas assinaturas e locatários. Se você for um Administrador de Locatário, poderá ver incidentes ativos ou avisos relevantes para suas assinaturas e locatários.
Avaliação do impacto do recurso: A guia Recurso Afetado na seção Detalhes do incidente mostra quais recursos foram afetados ou potencialmente afetados. Clicar nos recursos fornece acesso direto ao painel Resource Health.
Links e explicações para baixar: Gere um link para o problema para usar no sistema de gerenciamento de problemas. Você também pode baixar arquivos PDF e às vezes CSV para compartilhar explicações abrangentes com os stakeholders que não têm acesso ao portal do Azure. Além disso, você pode solicitar uma PIR (Revisão Pós-Incidente) para qualquer problema que tenha afetado seus recursos, anteriormente conhecidos como RCAs (Análises de Causa Raiz).

Painel Avisos de Segurança

O painel Avisos de Segurança se concentra em informações urgentes relacionadas à segurança que afetam a integridade das suas assinaturas e locatários. Ele fornece insights sobre vulnerabilidades da plataforma, incidentes de segurança e violações de privacidade.

Captura de tela dos avisos de segurança da Integridade do Serviço do Azure.

Principais recursos do painel Avisos de Segurança:

Insights de segurança em tempo real: Obtenha visibilidade imediata sobre incidentes de segurança do Azure relevantes para suas assinaturas e locatários.

Avaliação do impacto do recurso: A guia Recurso Afetado na seção Detalhes do incidente destaca os recursos que foram afetados ou que serão afetados.

Os usuários autorizados com as seguintes funções podem exibir informações dos recursos afetados pela segurança:

Exibir Recursos no nível da assinatura	Exibir Recursos no nível do locatário
Proprietário da assinatura	Administrador de Segurança/Leitor de Segurança
Administrador de assinatura	Administrador Global/Administrador de Locatário
Leitor de Segurança de Integridade do Serviço	Leitor de Privacidade da Integridade do Serviço do Azure

Além disso, você pode baixar documentos PDF explicativos para compartilhar com stakeholders que não têm acesso direto ao portal do Azure.

Os exemplos a seguir mostram um incidente de segurança com recursos afetados no escopo da assinatura e do locatário.

Além de se familiarizar com a Integridade do Serviço do Azure, outra etapa crucial é configurar alertas de Integridade do Serviço, que garantirão notificações em tempo hábil e manterá você informado sobre incidentes e informações importantes que podem afetar suas cargas de trabalho. A próxima seção abordará esse tópico em detalhes.

Ação nº. 2: Configure alertas de Integridade do Serviço para se manter informado

Configurar notificações de alerta de integridade do serviço é essencial, e a chamada para ação mais importante, para o gerenciamento proativo de incidentes. Os alertas de Integridade do Serviço permitem que você receba notificações em tempo hábil por meio de vários canais, como e-mail, SMS, webhooks e muito mais. Esses alertas fornecem atualizações sobre incidentes de serviço, atividades de manutenção planejadas, incidentes de segurança e outras informações críticas que podem afetar suas cargas de trabalho.

Você pode configurar alertas de integridade de serviço de qualquer um dos painéis de 'evento ativo' na folha Integridade do Serviço do portal do Azure, clicando em Alertas de integridade no painel Integridade do Serviço ou aproveitando o Azure Resource Graph.

Aqui, você pode encontrar consultas de exemplo do Azure Resource Graph para a Integridade do Serviço do Azure.

Captura de tela dos avisos de Integridade do Serviço do Azure.

A Integridade do Serviço acompanha diferentes tipos de eventos de integridade que podem afetar seus recursos, incluindo problemas de serviço, manutenção planejada, avisos de integridade e avisos de segurança. Ao configurar alertas de integridade do serviço, você tem a flexibilidade de escolher como e para quem esses alertas são enviados. Você pode personalizar os alertas com base na classe de notificação de integridade do serviço, assinaturas, serviços e regiões afetados.

Classe de notificações de Integridade do Serviço

Tipo de Evento de Integridade do Serviço	Descrição
Problema de serviço	Problemas nos serviços do Azure que afetam você imediatamente, também conhecidos como incidentes de serviço.
Manutenção planejada	Manutenção futura que pode afetar a disponibilidade dos seus serviços no futuro.
Alertas de integridade	Alterações nos serviços do Azure que exigem sua atenção. Os exemplos incluem quando você precisa executar uma ação, quando os recursos do Azure são preteridos, os requisitos de atualização ou se você excede uma cota de uso.
Avisos de segurança	Notificações relacionadas à segurança que tratam de vulnerabilidades da plataforma e violações de segurança e privacidade no nível da assinatura e do locatário, também conhecidas como incidentes de segurança e/ou privacidade.

Sabemos que você precisa ser notificado quando há problemas que afetam seus serviços, e os alertas de integridade do serviço oferece a possibilidade de escolher COMO e PARA QUEM esses alertas são enviados. Os alertas podem ser configurados com base na classe de notificação de integridade do serviço, assinaturas afetadas, serviços afetados e/ou regiões afetadas. Você pode configurar alertas para enviar e-mails, mensagens SMS, aplicativos lógicos, funções e muito mais.

Quando um alerta é disparado, você pode definir as ações a serem executadas usando grupos de ações. Os grupos de ação são coleções de preferências de notificação que determinam como e para quem os alertas são enviados.

Lista completa dos tipos de notificação disponíveis

Tipo de Notificação	Descrição	Campos
Enviar email para a função do Azure Resource Manager	Envie um email para os membros da assinatura, com base em suas funções. Um email de notificação é enviado somente para o endereço de email principal configurado para o usuário do Microsoft Entra. O email só é enviado para membros usuários do Microsoft Entra ou a função selecionada, não para grupos ou entidades de serviço do Microsoft Entra.	Insira o endereço de email primário configurado para o usuário do Microsoft Entra. Confira Email.
Email	Verifique se a filtragem de email e quaisquer serviços de prevenção contra malware/spam estão configurados adequadamente. Os emails são enviados dos seguintes endereços de email: - azure-noreply@microsoft.com - azureemail-noreply@microsoft.com - alerts-noreply@mail.windowsazure.com	Insira o email para o qual a notificação deve ser enviada.
SMS	As notificações por SMS são compatíveis com a comunicação bidirecional. O SMS contém as seguintes informações: – Nome curto do grupo de ações para o qual este alerta foi enviado – O título do alerta. Um usuário pode responder a um SMS para: – Cancelar a assinatura de todos os alertas de SMS para todos os grupos de ações ou um único grupo de ações. – Assinar alertas novamente – Solicitar ajuda. Para obter mais informações sobre respostas de SMS com suporte, confira Respostas de SMS.	Insira o Código do país e o Número de telefone do destinatário do SMS. Se você não consegue selecionar o código de seu país/região no portal do Azure, não há suporte para SMS para o país/região. Se o código de seu país/região não está disponível, você pode votar para que ele seja adicionado em Compartilhe suas ideias. Como solução alternativa até que seu país tenha suporte, configure o grupo de ações para chamar um webhook para um provedor de SMS de terceiros que dê suporte ao seu país/região.
Notificações por push do aplicativo do Azure	Enviar notificações para o aplicativo móvel do Azure. Para habilitar notificações por push para o aplicativo móvel do Azure, forneça o Para obter mais informações sobre o aplicativo móvel do Azure, confira Aplicativo móvel do Azure.	No campo Email da conta do Azure, insira o endereço de email que você usa como sua ID de conta durante a configuração do aplicativo móvel do Azure.
Voz	Notificação por voz.	Insira o Código do país e o Número de telefone do destinatário da notificação. Se você não consegue selecionar o código de seu país/região no portal do Azure, não há suporte para notificações de voz para o seu país/região. Se o código de seu país/região não está disponível, você pode votar para que ele seja adicionado em Compartilhe suas ideias. Como solução alternativa até que seu país tenha suporte, configure o grupo de ações para chamar um webhook para um provedor de chamadas de voz de terceiros que dê suporte ao seu país/região.

Lista completa de ações que você pode acionar

Tipo de ação	Detalhes
Runbook de automação	Para obter informações sobre os limites das cargas de runbook da Automação, confira Limites de automação.
Hubs de Eventos	Uma ação dos Hubs de Eventos publica notificações nos Hubs de Eventos. Para obter mais informações sobre os Hubs de Eventos, consulte Hubs de Eventos do Azure – uma plataforma de streaming de Big Data e um serviço de ingestão de eventos. Você pode assinar o fluxo de notificação de alertas do receptor do evento.
Funções	Chama um ponto de extremidade de gatilho HTTP existente nas funções. Para saber mais, confira Azure Functions. Quando você define a ação da função, o ponto de extremidade e a chave de acesso do gatilho HTTP da função são salvos na definição de ação, por exemplo, `https://azfunctionurl.azurewebsites.net/api/httptrigger?code=<access_key>`. Se você alterar a chave de acesso da função, precisará remover e recriar a ação da função no grupo de ações. Seu ponto de extremidade deve dar suporte ao método HTTP POST. A função deve ter acesso à conta de armazenamento. Se ele não tiver acesso, as chaves não estarão disponíveis e o URI da função não estará acessível. Saiba mais sobre como restaurar o acesso à conta de armazenamento.
ITSM	Uma ação de ITSM exige uma conexão de ITSM. Para saber como criar uma conexão de ITSM, consulte Integração de ITSM.
Aplicativos lógicos	Você pode usar os Aplicativos Lógicos do Azure para criar e personalizar fluxos de trabalho para integração e personalizar suas notificações de alerta.
Webhook seguro	Ao usar uma ação de webhook seguro, você precisa usar o Microsoft Entra ID para proteger a conexão entre o grupo de ações e o seu ponto de extremidade, que é uma API Web protegida. Confira Configurar a autenticação para o webhook seguro. O webhook seguro não dá suporte à autenticação básica. Se você estiver usando a autenticação básica, use a ação Webhook.
webhook	Se você usar a ação de webhook, o ponto de extremidade do webhook de destino precisará ser capaz de processar as cargas JSON que as diferentes fontes de alerta emitem. Você não pode passar certificados de segurança por meio de uma ação de webhook. Para usar a autenticação básica, você deve aprovar suas credenciais por meio do URI. Se o ponto de extremidade do webhook esperar um esquema específico, por exemplo, o esquema do Microsoft Teams, use o tipo de ação dos Aplicativos Lógicos para manipular o esquema de alerta para atender às expectativas do webhook de destino. Para obter informações sobre as regras usadas para repetir ações de webhook, confira Webhook.

Lembre-se de que a maioria dos incidentes de serviço afeta algumas assinaturas, portanto, elas não aparecerão em lugares como status.azure.com. Os alertas de integridade do serviço podem ser configurados no portal. Se você quiser automatizar a criação, eles também podem ser configurados por meio de modelos do PowerShell ou do ARM.

Ao configurar alertas de Integridade do Serviço e grupos de ação com eficiência, você pode garantir que receberá notificações em tempo hábil e realizará as ações apropriadas para mitigar o impacto de incidentes nos seus recursos do Azure.

Observação

Buscando ajuda sobre o que monitorar e quais alertas você deve configurar para qual finalidade? Não procure mais. Confira a solução "Alertas de Linha de Base do Azure Monitor". Ela fornece código e orientação abrangentes para implementar uma linha de base de alertas de plataforma, bem como alerta de integridade do serviço por meio de políticas e iniciativas em ambientes do Azure, com opções para implantação automatizada ou manual. A solução inclui políticas predefinidas para criar automaticamente alertas para todos os tipos de eventos de integridade de serviço (problema de serviço, manutenção planejada, avisos de integridade e avisos de segurança), grupos de ações e regras de processamento de alertas para vários tipos de recursos do Azure. Embora o foco esteja no monitoramento de ambientes arquitetados de zonas de destino do Azure (ALZ), ele também oferece orientação para clientes brownfield que não estão atualmente alinhados ao brownfield de arquitetura de ALZ.

Ação nº. 3: Considere alertas do Resource Health ou Eventos Agendados para informar você sobre problemas específicos do recurso

Depois de configurar os alertas de integridade do serviço, considere também adotar alertas de integridade de recursos. Os alertas do Azure Resource Health podem notificar você quase em tempo real quando esses recursos tiverem uma alteração de status, independentemente do motivo.

A principal distinção entre alertas de 'integridade do serviço' e alertas de 'integridade de recursos' é que o primeiro é acionado durante um problema conhecido da plataforma, como uma interrupção contínua (incidente de serviço) que está sendo investigada pela Microsoft. Em contraste, este último é acionado quando um recurso específico é considerado não íntegro, independentemente da causa subjacente.

Você pode configurar alertas de integridade de recursos no painel Resource Health na folha Integridade do Serviço do portal do Azure.

Captura de tela da integridade dos recursos de Integridade do Serviço do Azure.

Você também pode criar alertas de integridade de recurso programaticamente usando modelos do Azure Resource Manager e o Azure PowerShell. A criação de alertas de integridade de recurso programaticamente permite que você crie e personalize alertas em massa.

Eventos agendados para máquinas virtuais, evitando impacto

Eventos agendados é outra ferramenta ótima na qual ambos os tipos de 'alertas' acima notificam pessoas ou sistemas, eventos agendados notificam os próprios recursos. Isso pode oferecer ao seu aplicativo tempo para se preparar para a manutenção da máquina virtual ou um de nossos eventos de recuperação de serviço automatizado. Ele fornece um sinal sobre um evento de manutenção iminente (por exemplo, uma próxima reinicialização) para que seu aplicativo possa saber disso e, em seguida, agir para limitar a interrupção - por exemplo, executando a automação para sair do pool ou degradar-se normalmente. Eventos agendados estão disponíveis para todos os tipos de Máquina Virtual do Azure, incluindo PaaS e IaaS no Windows e no Linux.

Observação

Embora os alertas de integridade de recurso e os eventos agendados sejam ferramentas úteis, a chamada para ação mais importante é configurar alertas de integridade do serviço. Isso é fundamental para garantir que você entenda o que está acontecendo com seus recursos, o que estamos fazendo a respeito e quando isso é mitigado.

Ação nº. 4: Aumente a segurança do seu investimento para proteger seu ambiente

Verifique a proteção de seus dados, aplicativos e outros ativos no Azure examinando e implementando as Melhores Práticas de Segurança Operacional. Essas melhores práticas são derivadas do conhecimento e da experiência coletiva daqueles que trabalham com os recursos e funcionalidades atuais da plataforma do Azure. O artigo é atualizado regularmente para refletir a evolução das opiniões e tecnologias.

Como ponto de partida, considere estas principais recomendações para implementação:

Exija verificação em duas etapas para todos os usuários. Isso inclui os administradores e outros em sua organização que pode ter um impacto significativo se sua conta for comprometida (por exemplo, gerentes financeiros). Imponha a autenticação multifator para diminuir as preocupações dessa exposição.
Configure e habilite políticas de risco em seu locatário para que você seja alertado se "alguém" estiver em seu ambiente. Isso criará um alerta para eventos de risco, como uso anônimo de endereço IP, viagem atípica, propriedades de entrada desconhecidas e disparará ainda mais esforços de correção, como autenticação multifator, redefinição de senhas etc. garantindo que os clientes permaneçam seguros.
Controle a movimentação de assinaturas de e para diretórios como uma medida proativa para estar preparado e ciente de "qualquer pessoa" em seu ambiente. Isso garante que sua organização tenha visibilidade total das assinaturas que são usadas e impede a movimentação de assinaturas que podem ir para um diretório desconhecido.
Gire as credenciais de todos os administradores globais e de assinatura regularmente para ajudar a proteger você contra possíveis violações de segurança, contas comprometidas ou uso não autorizado de permissões privilegiadas. A rotação regular de credenciais adiciona uma camada adicional de segurança ao seu ambiente e ajuda a manter a integridade e a confidencialidade de seus dados e recursos.
Revise e atualize regularmente todos os e-mails e números de telefone de usuários administradores globais em seu locatário

Ação nº. 5: Aumente a resiliência de suas principais cargas de trabalho do Azure para potencialmente evitar ou minimizar o impacto

Para garantir a confiabilidade das suas cargas de trabalho, é fundamental avaliá-las usando os princípios encontrados no Microsoft Azure Well-Architected Framework na Revisão do Microsoft Azure Well-Architected. O WAF também fornece recomendações para testes de resiliência, incluindo a adoção de uma metodologia de engenharia do caos.

Os aplicativos devem passar por testes para garantir a disponibilidade e a resiliência. A disponibilidade se refere à duração em que um aplicativo opera sem tempo de inatividade significativo, enquanto a resiliência mede a rapidez com que um aplicativo pode se recuperar de falhas.

Para complementar seu trabalho com o WAF, considere implementar as seguintes recomendações principais e aproveitar as ferramentas fornecidas para ajudar você a verificar e criar resiliência em seus aplicativos:

Utilize a pasta de trabalho Confiabilidade integrada no portal do Azure na folha Assistente do Azure para avaliar a postura de confiabilidade de seus aplicativos, identificar possíveis riscos e planejar e implementar melhorias.
Melhore a BCDR (continuidade dos negócios e recuperação de desastres) implantando suas cargas de trabalho e recursos em várias regiões. Consulte a lista abrangente de pares de regiões do Azure para obter as opções ideais de implantação entre regiões.
Maximize a disponibilidade em uma região distribuindo implantações de carga de trabalho/recursos entre Zonas de Disponibilidade.
Considere utilizar tamanhos de máquina virtual isolados no Azure para suas cargas críticas para os negócios que exigem um alto nível de isolamento. Esses tamanhos garantem que sua máquina virtual seja dedicada a um tipo de hardware específico e opere de forma independente. Saiba mais informações aqui: Isolamento de VMs no Azure – Máquinas Virtuais do Microsoft Azure | Microsoft Learn.
Considere usar Configurações de Manutenção para ter melhor controle e gerenciamento sobre atualizações para suas máquinas virtuais do Azure. Esse recurso permite que você agende e gerencie atualizações, garantindo o mínimo de interrupção em cargas de trabalho confidenciais que não podem tolerar tempo de inatividade durante as atividades de manutenção.
Melhore a redundância implementando redundância entre ou dentro da região. Consulte o exemplo de um Aplicativo Web com redundância de zona altamente disponível para obter orientação.
Melhore a resiliência de seus aplicativos utilizando o Azure Chaos Studio. Com essa ferramenta, você pode introduzir deliberadamente falhas controladas em seus aplicativos do Azure, permitindo que você avalie resiliência dele e observe como eles respondem a várias interrupções, como latência de rede, interrupções de armazenamento, segredos expirando e falhas de datacenter.
Utilize a pasta de trabalho Desativar Serviço disponível no portal do Azure na folha Assistente do Azure. Essa ferramenta integrada ajuda você a se manter informado sobre quaisquer desligamentos de serviço que possam afetar suas cargas de trabalho críticas, permitindo que você planeje e execute com eficiência as migrações necessárias.

Observação

Os clientes que têm um contrato de Suporte Premier/Unificado podem utilizar a equipe de Sucesso do Cliente para criar estratégias e implementar uma avaliação do WAF (Well-Architected Framework).

Como se preparar para o inesperado (antes de um incidente)

Para se manter informado, mitigar o impacto e proteger seu investimento, recomendamos as cinco ações a seguir:

Ação nº. 1: Familiarize-se com a Integridade do Serviço do Azure no portal do Azure

Painel do Resource Health (nova experiência abordada)

Painel Problemas de Serviços (nova experiência abordada)

Painel Avisos de Segurança

Ação nº. 2: Configure alertas de Integridade do Serviço para se manter informado

Classe de notificações de Integridade do Serviço

Lista completa dos tipos de notificação disponíveis

Lista completa de ações que você pode acionar

Ação nº. 3: Considere alertas do Resource Health ou Eventos Agendados para informar você sobre problemas específicos do recurso

Eventos agendados para máquinas virtuais, evitando impacto

Ação nº. 4: Aumente a segurança do seu investimento para proteger seu ambiente

Ação nº. 5: Aumente a resiliência de suas principais cargas de trabalho do Azure para potencialmente evitar ou minimizar o impacto

Comentários