Compartilhar via


Lista de verificação de recomendações para confiabilidade

Esta lista de verificação apresenta um conjunto de recomendações a ser usado por você para avaliar a confiabilidade, a resiliência e as estratégias da recuperação de falhas no design da arquitetura. Para garantir confiabilidade, identifique os melhores design de aplicativo e infraestrutura para a carga de trabalho. Tome essas decisões com base nos requisitos de negócios mapeados para métricas de destino de disponibilidade e capacidade de recuperação.

Para implementar um design confiável, leve em consideração cuidadosamente os pontos de decisão no design e esteja ciente de como essas decisões afetam a carga de trabalho. Esta lista de verificação e os guias que a acompanham oferecem recursos para ajudar você a tomar essas decisões. Torne a confiabilidade da carga de trabalho uma consideração central em cada estágio do ciclo de vida do design, desenvolvimento e operação da carga de trabalho.

Lista de Verificação

Aborde o design com um foco na confiabilidade para ajudar a garantir que você projete uma carga de trabalho resiliente, gerenciável e repetível. Se você não incluir práticas de confiabilidade e levar em consideração as compensações, o design vai estar potencialmente em risco. Leve em consideração todos os pontos abordados na lista de verificação para incutir confiança no êxito do sistema.

  Code Recomendação
RE:01 Projete sua carga de trabalho para alinhar com objetivos de negócios e evite complexidade ou sobrecarga desnecessárias. Use uma abordagem prática e equilibrada para tomar decisões de design que entreguem os resultados desejados. Restrinja seu design às necessidades para reduzir ineficiências e possíveis problemas.
RE:02 Identifique e classifique fluxos de usuário e sistema. Use uma escala de gravidade com base nos requisitos de negócios para priorizar os fluxos.
RE:03 Use a análise do modo de falha (FMA) para identificar e priorizar falhas em potencial nos componentes da solução. Realize FMA para ajudar você a avaliar o risco e o efeito de cada modo de falha. Determine como a carga de trabalho responde e se recupera.
RE:04 Defina metas de confiabilidade e recuperação para os componentes, os fluxos e a solução geral. Visualize as metas para negociar, chegar a um consenso, estabelecer expectativas e direcionar ações para atingir o estado ideal. Use as metas definidas para compilar o modelo de integridade. O modelo de integridade define a aparência dos estados de integridade, degradação e não integridade.
RE:05
RE:05
Fortaleça a resiliência da sua carga de trabalho implementando o tratamento de erros e o tratamento de falhas transitórias. Compile capacidades na solução para resolver falhas em componente e erros temporários.
RE:06 Teste cenários de resiliência e disponibilidade aplicando os princípios da engenharia do caos em seus ambientes de teste e produção. Use o teste para garantir se as estratégias de implementação da degradação tranquila sejam eficazes realizando teste de carga de mau funcionamento e simulado.
RE:07 Implemente planos de continuidade de negócios e recuperação de desastres (BCDR) estruturados, testados e documentados que alinhar com as metas de recuperação. Os planos devem abranger todos os componentes e o sistema como um todo.
RE:08 Meça e publique os indicadores de saúde da solução. Capture continuamente o tempo de atividade e outros dados de confiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos-chave.

Próximas etapas