Proteção e recuperação no gerenciamento de nuvem

Artigo
05/25/2024

Antes de se preparar para uma possível interrupção da carga de trabalho, as equipes de gerenciamento de nuvem devem primeiro certificar-se de que atenderam aos requisitos para:

Como planejam, as equipes devem partir do pressuposto de que algo falhará quando ocorrer um desastre. A preparação para uma interrupção permite que as equipes detectem falhas mais cedo e se recuperem mais rapidamente. O foco dessa disciplina é nas etapas que surgem imediatamente após a falha de um sistema. Como você protege as cargas de trabalho para que elas possam ser recuperadas rapidamente quando ocorrer uma paralisação?

Nenhuma solução técnica pode oferecer consistentemente um SLA que garanta 100% de tempo de atividade. As soluções com as arquiteturas mais redundantes afirmam entregar um tempo de atividade de "seis noves" ou 99,9999%. Mas mesmo uma solução de "seis noves" fica inativa por 31,6 segundos em determinado ano. É raro que uma solução justifique um grande investimento operacional contínuo que seja necessário para atingir "seis 9s" de tempo de atividade.

Converter conversas de proteção e recuperação

As cargas de trabalho que alimentam as operações de negócios consistem em:

Aplicativos
Dados
VMs (máquinas virtuais)
Outros ativos

Cada ativo pode exigir sua própria abordagem de proteção e recuperação. O objetivo importante dessa disciplina é estabelecer um compromisso consistente dentro da linha de base da gestão, o que pode fornecer um ponto de partida para discussões de negócios.

No mínimo, as equipes de gerenciamento de nuvem devem criar uma abordagem de linha de base para cada ativo, com um compromisso claro com a recuperação rápida e perda mínima de dados.

RTO (objetivos de tempo de recuperação)

Um objetivo de tempo de recuperação é a quantidade de tempo que deve levar para recuperar qualquer sistema ao seu estado anterior a um desastre. Isso incluiria o tempo necessário para:

Restaurar funcionalidade mínima para VMs e aplicativos
Restaurar dados exigidos por aplicativos.

Em termos de negócios, o RTO representa a quantidade de tempo que os processos de negócios estão fora de serviço. Para cargas de trabalho de missão crítica, essa variável deve ser relativamente baixa, permitindo que os processos de negócios sejam retomados rapidamente. Para cargas de trabalho de baixa prioridade, um nível padrão de RTO pode não ter um impacto perceptível no desempenho da empresa.

Uma empresa deve criar uma linha de base de gerenciamento que estabeleça um RTO padrão para cargas de trabalho não essenciais. Em seguida, a empresa pode usar essa linha de base como uma forma de justificar investimentos adicionais em tempos de recuperação.

Objetivos do ponto de recuperação (RPO)

Na maioria dos sistemas de gerenciamento em nuvem, alguma forma de proteção de dados captura e armazena dados periodicamente. O ponto de recuperação refere-se à última vez que os dados foram capturados. Quando um sistema falha, ele pode ser restaurado somente para o ponto de recuperação mais recente.

O objetivo do ponto de recuperação é medido do ponto de recuperação mais recente até uma paralisação. Se o RPO for medido em horas, uma falha do sistema resultará na perda de dados para as horas entre o último ponto de recuperação e a interrupção. Se o RPO for medido em dias, uma falha do sistema resultará na perda de dados nos dias entre o último ponto de recuperação e a interrupção. Teoricamente, um RPO de um dia resultará na perda de todas as transações do dia até a falha.

Para sistemas de missão crítica, medir um RPO em minutos ou segundos pode ajudar a evitar perda de receita ou lucros. No entanto, um RPO mais curto geralmente resulta em aumento dos custos de gerenciamento. Para ajudar a minimizar esses custos, uma empresa deve criar uma linha de base de gerenciamento que se concentre no RPO aceitável mais longo. A empresa pode então diminuir o RPO das plataformas ou cargas de trabalho específicas que garantem mais investimento.

Proteger e recuperar cargas de trabalho

A maioria das cargas de trabalho em um ambiente de TI dá suporte a um processo de negócios ou técnico específico. Os sistemas que não têm um impacto sistêmico nas operações de negócios geralmente não garantem o maior investimento necessário para recuperar sistemas rapidamente ou minimizar a perda de dados. Ao estabelecer uma linha de base, uma empresa pode descobrir de que nível de suporte de recuperação precisa a um preço que possa gerenciar consistentemente. Entender isso ajuda as partes interessadas do negócio a avaliar o valor do aumento do investimento na recuperação.

Para a maioria das equipes de gerenciamento de nuvem, uma linha de base aprimorada, com compromissos específicos de RPO/RTO para vários ativos, produz o caminho mais favorável para compromissos de negócios mútuos. As seções a seguir descrevem algumas linhas de base comuns aprimoradas que permitem que uma empresa adicione facilmente a funcionalidade de proteção e recuperação por meio de um processo repetível.

Proteger e recuperar dados

Os dados são, sem dúvida, o ativo mais valioso na economia digital. A perda dos dados que alimentam uma carga de trabalho de produção leva à perda de receita ou lucros. A linha de base aprimorada mais comum é a capacidade de proteger e recuperar dados de forma eficaz. Incentivamos as equipes de gerenciamento de nuvem a oferecer um nível de linha de base de gerenciamento aprimorado que ofereça suporte a plataformas de dados comuns.

Antes que as equipes de gerenciamento de nuvem implementem as operações de plataforma, é comum que elas deem suporte a operações aprimoradas para uma plataforma de dados de PaaS (plataforma como serviço). Por exemplo, é fácil para uma equipe de gerenciamento de nuvem impor uma frequência mais alta de backup ou replicação multirregional para o Banco de Dados SQL do Azure ou soluções do Azure Cosmos DB. Isso permite que a equipe de desenvolvimento aprimore o RPO com facilidade, modernizando as plataformas de dados.

Para saber mais sobre essa linha de raciocínio, confira Disciplina de operações de plataforma.

Proteger e recuperar VMs

A maioria das cargas de trabalho depende um pouco de máquinas virtuais, que hospedam vários aspectos da solução. Uma empresa deve recuperar algumas máquinas virtuais rapidamente para que a carga de trabalho ofereça suporte a seus processos após uma falha do sistema.

Cada minuto de tempo de inatividade nessas máquinas virtuais pode causar perda de receita ou redução de lucros. Quando o tempo de inatividade da VM tem um impacto direto no desempenho fiscal dos negócios, o RTO é muito importante. As equipes de gerenciamento de nuvem podem recuperar máquinas virtuais rapidamente replicando-as para um local secundário e usando a recuperação automatizada, um modelo conhecido como modelo de recuperação quente. As equipes também podem replicar máquinas virtuais para um site secundário funcional em uma abordagem conhecida como modelo hot-hot ou de alta disponibilidade. A abordagem quente-quente é mais cara, mas oferece o mais alto estado de recuperação.

Cada um desses modelos reduz o RTO, o que ajuda as empresas a restaurar seus recursos de negócios mais rapidamente. No entanto, cada modelo também resulta em um aumento significativo dos custos de gerenciamento de nuvem.

Observe também que, além da replicação para alta disponibilidade, o backup deve ser habilitado para cenários como:

Exclusão acidental
Dados corrompidos
Ataques de ransomware

Para obter mais informações sobre essa linha de raciocínio, confira Disciplina de operações de carga de trabalho.

Próximas etapas

Depois que esse componente de linha de base de gerenciamento for atendido, a equipe poderá olhar para o futuro a fim de evitar interrupções nas operações de plataforma e nas operações de carga de trabalho.

Operações de plataforma Operações de carga de trabalho

Compartilhar via