Entender o monitoramento de disponibilidade e o planejamento de capacidade
Até mesmo os serviços online mais resilientes exigem recursos adequados para serem executados com eficiência. Isto é particularmente verdade em situações de emergência em que uma procura inesperadamente elevada tem o potencial de afetar a disponibilidade do Microsoft Online Services. A Microsoft utiliza uma monitorização de disponibilidade extensiva e um planeamento de capacidade frequente para garantir que os nossos serviços permanecem disponíveis para os nossos clientes, mesmo em situações de emergência.
Monitoramento de disponibilidade
A Microsoft implementa uma monitorização de disponibilidade alargada para garantir que todos os nossos Serviços Online têm os recursos necessários para serem executados da melhor forma. As equipes de serviço usam análise automatizada de telemetria e log para alertar os engenheiros de chamada sobre problemas de disponibilidade. Por exemplo, as equipes de serviço monitoram a utilização do processador e da memória para picos que podem ameaçar a integridade do serviço. Além da monitorização de disponibilidade geral, as equipas de serviços também selecionam as métricas de disponibilidade adequadas com base na natureza do respetivo serviço. Por exemplo, o SharePoint Online (SPO) monitora a funcionalidade principal do cliente, como a disponibilidade da página inicial e a capacidade de carregar e baixar documentos.
Em muitos casos, nossos serviços respondem automaticamente a problemas que ameaçam a disponibilidade provisionando recursos extras ou redirecionando o tráfego para componentes de serviço não afetados. Os engenheiros da equipe de serviço respondem aos alertas investigando e resolvendo quaisquer problemas subjacentes. Os problemas de disponibilidade que indicam um possível incidente de segurança são escalados para a equipa de resposta de segurança específica da carga de trabalho para resolução com o processo de resposta a incidentes de segurança.
Planejamento de capacidade
O planeamento de capacidade ajuda as equipas de serviços a alocar os recursos necessários para suportar a disponibilidade do Microsoft Online Services. O planeamento de capacidade regular é necessário como parte do programa ERCM da Microsoft, que garante uma capacidade consistente para ativações pós-falha. As equipes de serviço examinam os dados de capacidade durante revisões trimestrais e durante situações de emergência que garantem uma revisão de capacidade adicional.
Os dados não processados para o planeamento de capacidade são mantidos por cada equipa de serviço e incluem métricas como o processamento do sistema, a memória e a capacidade de hardware. As revisões agendadas usam um modelo da capacidade atual do sistema e o testam em relação às necessidades projetivas em situações de emergência. Se o modelo indicar lacunas na capacidade, as alterações propostas na capacidade do sistema serão enviadas à liderança da equipe de serviço para revisão. As alterações aprovadas são incorporadas em um novo modelo antes da implementação pelos engenheiros da equipe de serviço.
Como parte do planejamento de capacidade, cada equipe de serviço designa um Gerente de Projeto de Capacidade (PM), que é responsável por coletar dados de desempenho e manter modelos precisos de capacidade do sistema. Além de coordenar revisões de capacidade trimestrais, o PM de Capacidade serve como o ponto principal de contato para alertas de monitoramento de disponibilidade automatizado. O PM de Capacidade garante que a equipe de serviço apropriada seja notificada para que possa responder imediatamente a problemas de disponibilidade.