Protezione e ripristino nella gestione cloud
Prima di prepararsi per un'interruzione potenziale del carico di lavoro, i team di gestione cloud devono prima assicurarsi di aver soddisfatto i requisiti per:
Durante la pianificazione, i team devono iniziare con un presupposto che qualcosa avrà esito negativo quando si verifica un'emergenza. La preparazione per un'interruzione consente ai team di rilevare prima gli errori e di eseguire il ripristino più rapidamente. Questa disciplina si concentra sui passaggi da eseguire immediatamente dopo un errore di sistema. Come si proteggono i carichi di lavoro in modo che possano essere ripristinati rapidamente quando si verifica un'interruzione?
Nessuna soluzione tecnica può offrire costantemente un contratto di servizio che garantisce un tempo di attività del 100%. Le soluzioni con le architetture più ridondanti dichiarano di offrire un tempo di attività di tipo "sei 9" o al 99,9999%. Anche una soluzione di tipo "sei 9", tuttavia, risulta inattiva per 31,6 secondi in un anno specifico. È raro che una soluzione garantisca un investimento operativo elevato e continuativo che deve raggiungere "sei 9" di tempo di attività.
Tradurre conversazioni relative a protezione e ripristino
I carichi di lavoro che alimentano le operazioni aziendali sono costituiti da:
- Applicazioni
- Dati
- Macchine virtuali (VM)
- Altri asset
Ogni asset potrebbe richiedere un proprio approccio alla protezione e al ripristino. L'obiettivo importante di questa disciplina è stabilire un impegno coerente all'interno della baseline di gestione, che può fornire un punto di partenza per le discussioni aziendali.
Come minimo, i team di gestione cloud devono creare un approccio di base per ogni asset, con un chiaro impegno per il ripristino rapido e la perdita minima di dati.
Obiettivi del tempo di ripristino
Un obiettivo del tempo di ripristino è il tempo necessario per ripristinare lo stato di qualsiasi sistema prima di un'emergenza. Ciò include il tempo necessario per:
- Ripristinare le funzionalità minime alle macchine virtuali e alle applicazioni
- Ripristinare i dati richiesti dalle applicazioni.
In termini aziendali, RTO rappresenta la quantità di tempo in cui i processi aziendali sono fuori servizio. Per i carichi di lavoro cruciali, questa variabile deve essere relativamente bassa, consentendo ai processi aziendali di riprendere rapidamente. Per i carichi di lavoro di priorità minore un obiettivo del tempo di ripristino di livello standard potrebbe non avere un impatto rilevabile sulle prestazioni aziendali.
Un'azienda deve creare una baseline di gestione che stabilisce un RTO standard per carichi di lavoro non cruciali. L'azienda può quindi usare tale baseline come giustificazione per investimenti aggiuntivi nei tempi di ripristino.
Obiettivi del punto di ripristino (RPO)
Nella maggior parte dei sistemi di gestione cloud, alcune forme di protezione dei dati acquisiscono e archiviano periodicamente i dati. Il punto di ripristino fa riferimento all'ultima volta che i dati sono stati acquisiti. In caso di errore di sistema, sarà possibile eseguire il ripristino solo fino al punto di ripristino più recente.
L'obiettivo del punto di ripristino viene misurato dal punto di ripristino più recente a un'interruzione. Se l'RPO viene misurato in ore, un errore di sistema genera la perdita di dati per le ore tra l'ultimo punto di ripristino e l'interruzione. Se l'RPO viene misurato in giorni, un errore di sistema causa la perdita di dati per i giorni tra l'ultimo punto di ripristino e l'interruzione. Un obiettivo del punto di ripristino di un giorno provocherebbe in teoria la perdita di tutte le transazioni nella giornata fino al momento dell'errore.
Per i sistemi cruciali, la misurazione di un RPO in pochi minuti o secondi può contribuire a evitare perdite di ricavi o profitti. Tuttavia, un RPO più breve comporta in genere un aumento dei costi di gestione. Per ridurre al minimo questi costi, un'azienda deve creare una baseline di gestione incentrata sul rpo accettabile più lungo. L'azienda può quindi ridurre l'RPO delle piattaforme o dei carichi di lavoro specifici che garantiscono un maggiore investimento.
Proteggere e ripristinare i carichi di lavoro
La maggior parte dei carichi di lavoro in un ambiente IT supporta un processo aziendale o tecnico specifico. I sistemi che non hanno un impatto sistemico sulle operazioni aziendali in genere non giustificano l'aumento degli investimenti necessari per ripristinare i sistemi rapidamente o ridurre al minimo la perdita di dati. Stabilendo una linea di base, un'azienda può determinare il livello di supporto del ripristino di cui ha bisogno a un punto di prezzo che può gestire in modo coerente. Comprendere questo consente agli stakeholder aziendali di valutare il valore dell'aumento degli investimenti nel recupero.
Per la maggior parte dei team di gestione cloud, una baseline avanzata, con impegni RPO/RTO specifici per vari asset, restituisce il percorso più favorevole agli impegni aziendali reciproci. Le sezioni seguenti illustrano alcune baseline avanzate comuni che consentono a un'azienda di aggiungere facilmente funzionalità di protezione e ripristino tramite un processo ripetibile.
Proteggere e recuperare i dati
I dati sono probabilmente le risorse più preziose dell'economia digitale. La perdita dei dati che alimentano un carico di lavoro di produzione comporta una perdita di ricavi o profitti. La baseline avanzata più comune è la possibilità di proteggere e ripristinare i dati in modo efficace. Si consiglia ai team di gestione cloud di offrire un livello di baseline di gestione avanzata che supporta piattaforme dati comuni.
Prima che i team di gestione cloud implementino le operazioni della piattaforma, tali team supportano in genere operazioni migliorate per una piattaforma dati PaaS (Platform as a Service). Ad esempio, è facile per un team di gestione del cloud applicare una frequenza più elevata di replica di backup o multimultidimensionale per le soluzioni database SQL di Azure o Azure Cosmos DB. Ciò consente al team di sviluppo di migliorare facilmente l'obiettivo del punto di ripristino mediante la modernizzazione delle piattaforme dati.
Per altre informazioni su questo processo decisionale, vedere Disciplina Operazioni della piattaforma.
Proteggere e ripristinare le macchine virtuali
La maggior parte dei carichi di lavoro dipende in qualche modo dalle macchine virtuali, che ospitano vari aspetti della soluzione. Un'azienda deve ripristinare rapidamente alcune macchine virtuali per consentire al carico di lavoro di supportare i processi dopo un errore di sistema.
Ogni minuto di tempo di inattività in tali macchine virtuali può causare ricavi persi o ridurre i profitti. Quando il tempo di inattività di una macchina virtuale ha un impatto diretto sulle prestazioni fiscali dell'azienda, l'obiettivo del tempo di ripristino è estremamente importante. I team di gestione cloud possono ripristinare rapidamente le macchine virtuali replicandole in un sito secondario e usando il ripristino automatizzato, un modello definito modello di recupero ad accesso frequente. I team possono anche replicare le macchine virtuali in un sito funzionale secondario in un approccio noto come modello a disponibilità elevata o ad accesso frequente. L'approccio ad accesso frequente è più costoso, ma offre il massimo stato di ripristino.
Ognuno di questi modelli riduce l'obiettivo RTO, che consente alle aziende di ripristinare le funzionalità aziendali più velocemente. Ogni modello comporta tuttavia anche un incremento significativo dei costi di gestione cloud.
Si noti anche che, a parte la replica per la disponibilità elevata, è consigliabile abilitare il backup per scenari come:
- Eliminazione accidentale
- Danneggiamento dei dati
- Attacchi ransomware
Per altre informazioni su questo processo decisionale, vedere Disciplina Operazioni dei carichi di lavoro.
Passaggi successivi
Dopo avere soddisfatto i requisiti di questo componente della baseline di gestione, il team può dedicarsi a evitare le interruzioni nelle operazioni della piattaforma e nelle operazioni dei carichi di lavoro.