Compartilhar via


Gerenciamento de incidentes para cargas de trabalho SaaS no Azure

Os ISVs (fornecedores independentes de software) para soluções de SaaS (software como serviço) devem operar a solução para seus clientes. Fazer isso requer uma configuração organizacional e uma cultura que lide com situações de produção inesperadas sem problemas. Como arquiteto, você deve projetar processos e ferramentas de gerenciamento de acordo.

Este artigo orienta você no alinhamento da cultura, dos processos e das ferramentas da sua organização para dar suporte ao gerenciamento de incidentes de uma solução SaaS de produção.

Entenda suas responsabilidades como prestador de serviços

Operar uma solução SaaS significa que você é o departamento de TI e operações 24 horas por dia, 7 dias por semana de seus clientes. Você precisa estar preparado com a equipe, a cultura, os processos e as ferramentas certas.

Considerações sobre o design

  • Assuma a responsabilidade pelo suporte 24x7x365. Operar uma solução SaaS exige que sua organização esteja sempre preparada para a resposta a incidentes. Essa preparação inclui sempre ter membros da equipe disponíveis, pois os incidentes podem ocorrer fora do horário comercial.

    O suporte ao site ao vivo envolve monitoramento em tempo real e resposta a incidentes que afetam a disponibilidade, a segurança, o desempenho ou a implantação do sistema. Você ou seus clientes podem detectar esses incidentes. Para lidar com esses incidentes, você precisa de habilidades específicas, incluindo a capacidade de analisar e resolver problemas sob pressão.

    O suporte ao vivo pode ser estressante e é importante apoiar os membros de sua equipe. Se a equipe for nova nessa responsabilidade, planeje a transição com cuidado. Aborde as preocupações sobre tarefas de plantão, compensação e gerenciamento de indisponibilidade durante incidentes.

    Risco: Qualificação e gerenciamento de expectativas. Nem todos os engenheiros são adequados para uma função de suporte 24x7x365. Ao fazer a transição de uma equipe pré-existente para dar suporte a uma solução SaaS, certifique-se de que as expectativas adequadas sejam definidas e que as oportunidades de educação sejam fornecidas.

  • Institua uma cultura de site ao vivo. Considere como você gerencia casos e incidentes de suporte e como ocorrem os escalonamentos. O objetivo é garantir que os membros da equipe entendam suas responsabilidades e tenham as habilidades e ferramentas necessárias para lidar com incidentes.

    Startups e organizações menores podem ter um plano leve para problemas de site ao vivo. Os engenheiros podem inicialmente servir como suporte de linha de frente, respondendo a casos de suporte ao cliente. Organizações maduras, ou provedores de SaaS com clientes corporativos, precisam de suporte mais estruturado e equipes dedicadas.

    Compensação: Excelência operacional e custo. O gerenciamento de eventos de site ativo pode prejudicar o tempo de desenvolvimento de novos recursos ou correções de bugs. Se a velocidade de desenvolvimento for uma preocupação, considere contratar recursos dedicados ao site ativo.

Recomendações de design

Recomendação Benefício
Apresente uma equipe de linha de frente para lidar com casos de suporte.

Para casos complexos, essa equipe reúne as informações que a equipe de engenharia precisa para sua investigação. Um fornecedor pode servir como sua equipe de suporte de linha de frente e realizar a análise inicial de problemas e resolver problemas simples.
Você evita sobrecarregar a equipe de engenharia com responsabilidades de tratamento de incidentes e lidar com interrupções em suas tarefas regulares.
Invista em uma função de plantão para que os engenheiros lidem com casos complexos, investiguem e tomem medidas.

Se possível, alterne as responsabilidades de plantão entre os membros da equipe, com cada engenheiro de plantão por alguns dias de cada vez.
Com responsabilidades e caminhos de escalonamento bem definidos, você pode identificar e resolver problemas rapidamente sem interromper seu fluxo de trabalho de engenharia.
Adquira ferramentas especializadas para gerenciamento de incidentes.

Certifique-se de que todos os respondentes tenham acesso e entendam como usar essas ferramentas de forma eficaz.

Selecione ferramentas que possam monitorar o estado do sistema, rastrear problemas relatados pelo cliente, identificar problemas, escalar para engenheiros de plantão, gerenciar engenheiros que não respondem e permitir alterações na produção.
Ter as ferramentas certas ajuda sua equipe de plantão a identificar e resolver incidentes rapidamente, mantendo a segurança e o controle operacional.
Melhore seu monitoramento, implantações, atualizações e outras operações regulares de gerenciamento. Ao investir em maturidade operacional, você reduz a probabilidade de problemas no site ativo. Se ocorrerem problemas, ter operações bem definidas em vigor reduz o tempo de resolução.

Defina seu plano de resposta

Reconheça que os incidentes são inevitáveis e prepare-se para eles definindo um plano de resposta a incidentes. Essa abordagem proativa evita que você tenha que elaborar uma estratégia de resposta durante o primeiro incidente.

Planeje com antecedência para incidentes graves, que normalmente afetam a capacidade de seus clientes de usar seu serviço. Essa preparação ajuda a minimizar o estresse e a complexidade ao gerenciar incidentes à medida que eles ocorrem.

Considerações sobre o design

  • Defina o caminho de escalonamento. Certifique-se de que as equipes entendam o processo de escalonamento para tarefas de suporte. Em muitas soluções SaaS, os clientes entram em contato com uma equipe de suporte de linha de frente, que se comunica com a equipe de engenharia. Certifique-se de que os clientes saibam com quem interagir e por que não devem ignorar esses processos. Além disso, certifique-se de que sua equipe de engenharia saiba quando e como buscar ajuda de fornecedores, incluindo equipes de suporte da Microsoft.

  • Defina os níveis de gravidade. Diferentes incidentes variam em importância para você e seus clientes. A forma como você lida com uma grande interrupção de produção difere de como você lida com um bug menor. Defina os níveis de gravidade com base no impacto do cliente e defina expectativas e cronogramas apropriados para cada nível.

  • Documente as informações necessárias para a triagem. Manter a documentação atualizada é essencial para uma resposta eficaz a incidentes. Esta documentação inclui o layout arquitetônico do sistema, detalhes no nível do componente, proprietários e principais contatos. Informações imprecisas ou desatualizadas podem fazer com que a equipe de resposta a incidentes perca um tempo valioso descobrindo as operações do sistema, as responsabilidades e o impacto potencial do incidente.

  • Planeje uma comunicação eficaz com os clientes. Fornecer atualizações de status é fundamental no gerenciamento de incidentes. As atualizações de status ajudam seus clientes a entender a natureza de um incidente e também reduzem o volume de casos de suporte de clientes que enfrentam problemas semelhantes.

Recomendações de design

Recomendação Benefício
Forneça um processo claro de relatório de incidentes, como abrir um caso de suporte com sua equipe de suporte de linha de frente, para seus clientes. Você garante consistência na forma como descobre e responde a incidentes, o que reduz o tempo de resolução e evita que as informações sejam perdidas ou negligenciadas.
Documente o layout arquitetônico, os detalhes no nível do componente, as classificações de privacidade ou segurança, os proprietários e os principais contatos. A equipe de triagem tem as informações prontamente disponíveis e pode se concentrar em investigações e avaliação de impacto.
Certifique-se de que sua equipe de resposta a incidentes possa acessar os ativos e sistemas necessários, como logs. Eles também precisam ser capazes de fazer alterações na produção por meio de um processo seguro e controlado. Você restaura as operações mais rapidamente, garantindo que sua equipe não perca tempo.
Use uma página de status comercial em vez de criar a sua própria. Economize tempo usando uma página de status comercial. Uma página de status hospedada por outra organização também permanece acessível aos clientes durante uma interrupção em seu sistema.

Gerencie incidentes metodicamente

Aderir ao plano definido é crucial para evitar improvisações durante o tempo de resposta. Essa abordagem ajuda a minimizar o estresse e a complexidade do gerenciamento dessas situações.

Considerações sobre o design

  • Atribua a gravidade do incidente. Use seu plano de resposta a incidentes para determinar a gravidade do incidente. Os clientes geralmente ficam frustrados durante os incidentes. É importante que você entenda o impacto que eles estão vendo para que você possa priorizar. Comunique a gravidade do incidente com clareza para que os clientes tenham expectativas realistas.

  • Mantenha a calma e pense com clareza. Os incidentes podem ser estressantes e ambíguos, com várias partes interessadas exigindo atenção. Tenha um processo claro para quem assume a liderança em um incidente. Faça a triagem de incidentes da melhor maneira possível, reconhecendo que pode ter que operar com informações imperfeitas. Tente manter o controle da situação.

    Os líderes organizacionais podem ajudar protegendo os membros da equipe que estão investigando ou mitigando ativamente um incidente.

  • Comunique o status aos seus clientes. Atualize a página de status para publicar apenas informações suficientes. Comunique-se prontamente e forneça as informações necessárias, como tempos estimados de resolução. Dê aos clientes atualizações frequentes para manter sua confiança.

Recomendações de design

Recomendação Benefício
Durante um incidente, priorize a recuperação em vez da descoberta.

Quando ocorrer um incidente, priorize a restauração rápida das operações para minimizar a interrupção para seus clientes.
Você pode ser capaz de recuperar roteando um componente afetado ou revertendo uma atualização, mesmo que ainda não entenda o que causou o problema.
Forneça atualizações oportunas, claras e frequentes durante interrupções. Você pode incutir confiança no cliente e reduzir a carga sobre sua equipe de suporte da linha de frente.
Designe um gerente de comunicações durante um incidente ativo. Esse gerente pode ser uma única pessoa ou você pode alternar a responsabilidade entre os membros da equipe entre os incidentes. Ao ter uma voz para sua equipe de engenharia, você centraliza as conversas e reduz as distrações para outros membros da equipe. Você também evita que informações conflitantes cheguem aos clientes ou partes interessadas durante um incidente caótico.
Certifique-se de ter um plano de suporte crítico para fornecedores como a Microsoft. Se ocorrer uma interrupção, você precisará de comunicações responsivas com seus fornecedores de plataforma, como a Microsoft, para ajudá-lo a determinar onde está um problema e reduzir a duração da interrupção.

Realizar revisões pós-incidente

Depois de se recuperar de um incidente, revise e analise o que aconteceu para aprender com ele. Implemente ações de correção, que podem incluir alterações técnicas, ajustes de processo ou mais treinamento.

Considerações sobre o design

  • Aprenda com os incidentes. As interrupções oferecem oportunidades valiosas de aprendizado. Realize revisões completas após incidentes para identificar lições e implementar melhorias. Os incidentes graves geralmente têm várias causas. Avalie se outras camadas de sua solução, como processos operacionais, podem impedir ou detectar o problema antes que ele se agrave. Além disso, procure padrões semelhantes em outras partes da solução que também possam estar em risco do mesmo problema.

  • Comunique-se com seus clientes. Muitos ISVs fornecem comunicações pós-incidente, especialmente para clientes corporativos que esperam atualizações de alta qualidade. Seja transparente e forneça informações suficientes para que os clientes entendam o problema e as etapas de mitigação. No entanto, para manter a segurança e a integridade, evite compartilhar detalhes internos excessivos sobre a arquitetura ou os componentes da solução.

Recomendações de design

Recomendação Benefício
Crie um processo para realizar revisões internas pós-incidente.

Concentre-se em identificar os motivos que contribuíram para o problema. Considere as causas técnicas, como seus processos podem ter contribuído para a interrupção e como você respondeu ao incidente.
As revisões internas pós-incidente ajudam você a aprender com as interrupções de produção e minimizar o risco de problemas semelhantes acontecerem novamente.
Faça um plano estruturado para abordar quaisquer itens que precisem de correção. Inclua responsabilidade e cronogramas claros. A responsabilidade clara ajuda a garantir que cada função atenda às suas expectativas funcionais, aumenta a clareza e permite relatórios transparentes nos níveis desejados.
Publique avaliações pós-incidente voltadas para o cliente.

Forneça aos clientes detalhes suficientes para entender o problema e as etapas de mitigação sem revelar detalhes internos desnecessários ou arquitetura do sistema.

As comunicações pós-incidente devem sempre ser escritas e publicadas por humanos. As partes interessadas técnicas e não técnicas devem revisar as comunicações quanto à precisão e clareza.
Essa abordagem ajuda a manter a confiança dos clientes e garante que você aprendeu com o incidente e está resolvendo os problemas identificados.

Próxima etapa

Depois de revisar as áreas de design, vá para a ferramenta de avaliação para avaliar seu design.