Entenda para onde ir e o que esperar durante um incidente
Quando falamos de um "incidente", estamos falando especificamente de um problema do nosso lado Microsoft/Azure - um problema do lado da plataforma que está afetando seus serviços. Durante esses problemas raros, mas inevitáveis, nosso objetivo é ser o mais transparente possível com você, fornecendo atualizações regulares diretamente de nossos engenheiros. Nós nos esforçamos para informar as pessoas certas através dos canais certos e para compartilhar o máximo de detalhes possível.
Embora geralmente não compartilhemos especulações ou o funcionamento interno das etapas de solução de problemas, compartilhamos tudo o que sabemos sobre o incidente. Não há atraso nas mensagens - mesmo para mensagens detalhadas - com base no tamanho ou segmento do cliente, status do parceiro ou plano de suporte - para que as organizações parceiras da Microsoft e até mesmo as equipes de contas da Microsoft sejam notificadas ao mesmo tempo e com as mesmas atualizações que os clientes afetados que representam.
Durante um incidente
Reveja o Estado de Funcionamento do Serviço do Azure no portal do Azure para obter as atualizações mais recentes dos nossos engenheiros.
Se você notar um problema e precisar entender "somos nós ou é o Azure", verificar a Integridade do Serviço do Azure no portal deve ser a primeira porta de chamada. Embora você deva estar ciente desse local de "ir para", não deve precisar procurar informações reativamente, se tiver configurado os alertas de integridade do serviço relevantes com antecedência. Durante um problema conhecido, esses alertas de integridade do serviço serão acionados e eles serão notificados usando o canal de comunicação escolhido.
Nota
Como lembrete, configure o alerta de Estado de Funcionamento do Serviço para ser notificado das comunicações do portal através do canal da sua escolha (e-mail, SMS, webhook)
Se houver problemas para acessar a Integridade do Serviço ou o próprio portal, verifique a página pública Status do Azure.
No caso improvável de um problema de serviço atrapalhar a possibilidade de você acessar a Integridade do Serviço no portal do Azure, azure.status.microsoft é usado para postar atualizações de problemas. Esta página é usada apenas para problemas que interrompem o caminho de comunicação habitual ou para problemas generalizados raros.
É importante lembrá-lo de que azure.status.microsoft realmente serve como um backup para o Azure Service Health. A maioria das nossas comunicações de problemas de serviço são fornecidas como notificações direcionadas enviadas diretamente para subscrições ou inquilinos afetados. Eles são entregues por meio da Integridade do Serviço do Azure no portal do Azure e acionam todos os alertas de Integridade do Serviço do Azure que foram configurados. A página de status pública (azure.status.microsoft) só é usada para comunicar sobre problemas de serviço em três cenários específicos:
Cenário 1 - Amplo impacto envolvendo várias regiões, zonas ou serviços - Um problema de serviço tem impacto amplo/significativo no cliente em vários serviços para uma região completa ou várias regiões. Neste caso, notificamos você porque a resiliência configurada pelo cliente, como alta disponibilidade ou recuperação de desastres, pode não ser suficiente para evitar impactos.
Cenário 2 - Portal do Azure / Estado de Funcionamento do Serviço não acessível - Um problema de serviço impede-o de aceder ao portal do Azure ou ao Estado de Funcionamento do Serviço do Azure e, por conseguinte, afetou o nosso caminho de comunicações de interrupção padrão descrito anteriormente.
Cenário 3 - Impacto no serviço, mas ainda não sei quem exatamente foi afetado - O problema do serviço tem um impacto amplo/significativo no cliente, mas ainda não podemos confirmar quais clientes, regiões ou serviços são afetados. Neste caso, não podemos enviar comunicações direcionadas, por isso fornecemos atualizações públicas.
Se houver problemas com a página Status, verifique se há atualizações por meio do @AzureSupport no X.
Apenas algumas vezes na história do Azure, houve problemas técnicos que impediram a publicação de atualizações de incidentes em azure.status.microsoft - nessas circunstâncias extraordinárias, publicamos atualizações de incidentes via X em @AzureSupport. Mas, independentemente do problema, os clientes devem se sentir à vontade para entrar em @AzureSupport contato para qualquer dúvida relacionada a possíveis problemas que estejam vendo ou com perguntas de suporte. A @AzureSupport equipe geralmente responde em menos de 5 minutos (estamos muito orgulhosos disso!), mas é importante saber que, durante problemas conhecidos (por exemplo, se houver uma interrupção listada no Service Health), o incidente já está sendo trabalhado pelos engenheiros certos, então potencialmente não há muito que a @AzureSupport equipe seja capaz de fazer para ajudar, além de direcionar os clientes para as atualizações oficiais de engenharia do que está acontecendo.
Se o seu impacto/problemas não corresponderem ao incidente (ou se estes persistirem após a atenuação), contacte o suporte.
Esta é a nota mais importante para os clientes entenderem sobre o que fazer (ou não fazer) durante um incidente. Como mencionado acima, durante problemas conhecidos (por exemplo, se houver uma interrupção listada no Service Health), o incidente já está sendo trabalhado pelos engenheiros certos, portanto, os clientes não precisam entrar em contato com o suporte para obter atualizações. Eles receberão atualizações regulares por meio da Integridade do Serviço (e seus alertas de integridade do Serviço) e os engenheiros de suporte não terão acesso a informações mais detalhadas do que as fornecidas aos clientes afetados. Se os clientes leram as atualizações da engenharia, mas precisam de suporte para responder ao incidente (por exemplo, para implementar seus planos de failover), eles podem e devem gerar um tíquete de suporte.
Da mesma forma, se os sintomas que eles estão percebendo não parecem estar "alinhados" com os sintomas descritos nas atualizações de problemas (por exemplo, se houver um problema conhecido com o Cache Redis no Leste dos EUA, mas eles estiverem vendo problemas com um Cache Redis no Leste dos EUA 2), isso pode não estar relacionado e os clientes podem e devem levantar um tíquete de suporte. Finalmente, se um problema de serviço for resolvido/mitigado, mas o cliente ainda estiver vendo problemas com seus serviços, os engenheiros de suporte podem ajudá-los a ver se há algo especial acontecendo com seus recursos, para que os clientes possam e devam levantar um tíquete de suporte.