Resumo

Concluído

O planeamento e a recuperação após desastre são elementos críticos das operações de TI, quer os sistemas de uma organização estejam localizados no local, na cloud ou numa combinação de ambos. As plataformas da cloud pública oferecem serviços para efetuar cópias de segurança de dados críticos, restaurar estes dados se forem perdidos, efetuar a ativação pós-falha de sistemas secundários quando os sistemas primários ficam inativos e mitigar os efeitos das falhas (e recuperar dos mesmos). Eis algumas das principais ideias abordadas neste módulo:

  • Os sistemas de TI devem ser tolerantes a falhas na medida do possível. Um sistema tolerante a falhas é um sistema que se comporta conforme esperado ou de acordo com as expetativas do contrato de nível de serviço (SLA) em caso de ocorrência de falhas.

  • Uma forma de alcançar a tolerância a falhas é utilizar métodos reativos, como a replicação de tarefas e os pontos de restauro.

  • Os métodos proativos como a replicação de recursos e o balanceamento de carga também podem contribuir para a tolerância a falhas.

  • As principais plataformas da cloud oferecem serviços de cópia de segurança que proporcionam uma rede de segurança contra a perda de dados. O Azure Backup e o AWS Backup são dois exemplos de serviços de cópia de segurança com base na cloud.

  • A recuperação após desastre serve para garantir a continuidade de negócio ao redirecionar o tráfego para sistemas secundários quando é necessário. Os fornecedores de serviços cloud, como a Amazon e a Microsoft, oferecem a Recuperação após Desastre como Serviço (DRaaS) na forma de serviços como o AWS CloudEndure e o Azure Site Recovery.

  • Os objetivos comuns ao nível dos serviços por trás dos planos de recuperação após desastre incluem o RPO (Objetivo de Ponto de Recuperação), o RTO (Objetivo de Tempo de Recuperação) e o período de retenção.

  • A continuidade é a aplicação bem-sucedida das melhores práticas para obter um resultado positivo perante a ocorrência de desastres. Um fator essencial para a continuidade é a resiliência.

  • A resiliência pode ser quantificada através de métricas como a tolerância a falhas, a tolerância a interrupções e a capacidade de sobrevivência. O modelo ResiliNets oferece uma forma de codificar a resiliência.

  • A norma internacional da estratégia de continuidade de negócio é a ISO 22301. O Azure utiliza o Azure Resiliency Framework para alcançar a conformidade com a norma ISO 22301.

Para que um sistema de informação seja resiliente, os seus responsáveis têm de agir de acordo com o ideal de que os sistemas de informação evoluem como se estivessem vivos, através da monitorização e melhoria consistente realizada por seres vivos, e não através da robótica. Os processos automatizados têm um objetivo positivo, mas não substituem os esforços ativos.