Preparare le operazioni cloud di Azure
Questo articolo illustra come stabilire e gestire operazioni efficaci per la gestione del cloud estate di Azure. Le operazioni cloud riuscite richiedono responsabilità e processi chiaramente definiti per ogni area di gestione cloud.
Identificare le responsabilità di gestione
La gestione efficace dell'ambiente Azure comporta responsabilità centrali (a livello di piattaforma) e responsabilità del carico di lavoro. Le responsabilità centrali supportano l'intero ambiente cloud di Azure. Le responsabilità del carico di lavoro sono incentrate su un singolo carico di lavoro. Usare tabella 1 per assicurarsi che le vostre operazioni tengano conto delle responsabilità essenziali delle operazioni cloud.
Tabella 1. Responsabilità principali della gestione del cloud
Aree di gestione cloud | Responsabilità centrali | Responsabilità del carico di lavoro |
---|---|---|
Conformità | ▪ Definire procedure operative. ▪ Applicare i criteri di governance . ▪ Monitorare la conformità e correggere o procedere con un'escalation in base alle esigenze. |
▪ Seguire le procedure operative. ▪ Allineare la progettazione ai criteri di governance. |
Sicurezza | ▪ Gestire le operazioni di sicurezza a livello di organizzazione. ▪ Gestire le identità in Microsoft Entra ID. ▪ Concedere l'accesso alle sottoscrizioni di Azure. ▪ Definire e gestire le baseline di sicurezza tramite Criteri di Azure e Microsoft Defender for Cloud. ▪ Supervisionare l'integrazione della protezione dalle minacce e della risposta agli eventi imprevisti con Microsoft Sentinel. |
▪ Implementare progettazione sicura del carico di lavoro. ▪ Rispondere agli avvisi di sicurezza e agli eventi imprevisti specifici del carico di lavoro. ▪ Valutare continuamente le vulnerabilità all'interno del carico di lavoro. |
Gestione delle risorse | ▪ Definire e mantenere la gerarchia di risorse . ▪ Creare sottoscrizioni per carichi di lavoro come richiesto. ▪ Definire la strategia di denominazione e di assegnazione dei tag . ▪ Definire topologia di rete. ▪ Configurare la rete condivisa (peering di rete virtuale, connettività locale). ▪ Gestire risorse/servizi condivisi o comuni tra carichi di lavoro. ▪ Monitorare i limiti della sottoscrizione e gestire le richieste di aumento della quota. |
▪ Gestire sottoscrizioni specifiche per il carico di lavoro (se delegate). ▪ Gestire gruppi di risorse e risorse per ogni carico di lavoro. ▪ Rispettare e applicare standard di denominazione e assegnazione di tag. ▪ Gestire l'utilizzo delle risorse a livello di applicazione, assicurandosi che le risorse rimangano entro le quote di sottoscrizione. |
Distribuzione | ▪ Standardizzare e gestire pipeline e strumenti CI/CD (Azure DevOps, GitHub Actions). ▪ Definire modelli di infrastruttura di riferimento come codice (Bicep, Terraform, ARM templates). ▪ Fornire procedure consigliate centrali per la sicurezza delle pipeline (analisi del codice, gestione dei segreti). |
▪ Usare il framework CI/CD centrale e i modelli IaC per le distribuzioni di carichi di lavoro . ▪ Implementare attività di distribuzione specifiche del carico di lavoro (configurare le impostazioni dell'app, il database). ▪ Adattare i modelli di riferimento alle esigenze del carico di lavoro rispettando le linee guida centrali. |
Sviluppo | ▪ Fornire e applicare toolchain e framework di sviluppo standardizzati per accelerare la coerenza (standard di codifica, procedure consigliate per DevOps). ▪ Gestire i repository interni o i feed di pacchetti per librerie o moduli condivisi. |
▪ Adottare e adattare le toolchain standard per lo sviluppo dei carichi di lavoro . ▪ È proprietario del ciclo di vita dell'applicazione e incorpora le procedure consigliate (unit test, test di integrazione). ▪ Gestire il miglioramento continuo della base di codice del carico di lavoro. |
Monitoraggio | ▪ Pianificando la strategia di monitoraggio . ▪ Avviso sulle responsabilità centralizzate. ▪ Fornire dashboard per le metriche operative comuni nell'ambiente. |
▪ Monitorare carico di lavoro ▪ Estendere o ottimizzare gli avvisi centrali per acquisire condizioni specifiche del carico di lavoro. ▪ Analizzare e correggere gli eventi imprevisti a livello di carico di lavoro in base a avvisi e log. |
Costo | ▪ Allocare budget globali per il cloud o a livello di sottoscrizione ▪ Monitorare la spesa cloud a livello di organizzazione e creare report sui costi. ▪ Allocare i costi alle business unit o ai prodotti, in genere usando tag o modelli di allocazione dei costi personalizzati. ▪ Applicare la strategia di assegnazione di tag per l'allocazione dei costi. |
▪ Ottimizzare i costi nella progettazione dei carichi di lavoro ▪ Rispettare i vincoli di budget. |
Affidabilità | ▪ Definire requisiti di affidabilità (SLO, RPO, RTO) in base alla priorità del carico di lavoro. ▪ Fornire indicazioni sulla continuità aziendale e sul ripristino di emergenza (BCDR). ▪ Gestire soluzioni centralizzate di ripristino di emergenza . ▪ Supportare la gestione degli eventi imprevisti principali in tutti i carichi di lavoro. |
▪ Progettare un carico di lavoro per soddisfare i requisiti di affidabilità . |
Prestazioni | ▪ Monitorare e mantenere le prestazioni in componenti centralizzati (rete hub, servizi condivisi). ▪ Fornire linee guida per l'ottimizzazione delle prestazioni e la pianificazione della capacità. ▪ Monitorare la quota |
▪ Progettare il carico di lavoro per l'efficienza delle prestazioni . |
Instaurare le attività cloud
Usare le responsabilità descritte in tabella 1 per creare una base operativa efficace. Definire chiaramente team, standard e processi seguendo questa procedura:
Definire il modello di operazioni cloud. Scegliere un modello di gestione centralizzato o condiviso in base alle dimensioni e alla maturità dell'organizzazione, descritte nella tabella seguente:
Approccio alle operazioni Responsabilità e ambito Il migliore per Vantaggi Svantaggi Centralizzato Un singolo team gestisce tutte le attività. Startups o piccola impronta cloud. Semplifica la gestione del cloud. Rischia di creare colli di bottiglia. Gestione condivisa Separare i team della piattaforma centrale e del carico di lavoro Organizzazioni con carichi di lavoro diversi. Bilancia la governance e l'agilità. Richiede un'assegnazione chiara della responsabilità Stabilire le responsabilità centrali. Formare un team dedicato per gestire le attività di gestione centrale. Sviluppare una matrice di competenze dalla tabella 1 per identificare le competenze necessarie.
Stabilire le responsabilità del carico di lavoro. Configurare team specializzati per attività specifiche del carico di lavoro. Identificare le responsabilità usando Tabella 1 quindi reclutare di conseguenza.
Eseguire una revisione di Azure Well-Architected. Usare lo strumento di valutazione Well-Architected per rivalutare ogni carico di lavoro durante lo sviluppo e il test delle modifiche di progettazione.
Usare il framework Azure Well-Architected. Utilizzare il pilastro di eccellenza operativa per guidare le responsabilità di gestione del carico di lavoro.
Assegnare la responsabilità. Indicare proprietari specifici per tutte le responsabilità nella gestione del cloud. In un modello di gestione condivisa, i team del carico di lavoro devono avere autonomia per gestire le sottoscrizioni.
Documentare le operazioni cloud
Documentare chiaramente le operazioni cloud per consentire una risposta efficiente alle crisi e un'implementazione uniforme dei cambiamenti. Stabilire procedure generali e creare guide dettagliate per attività frequenti e specifiche.
Documentare le procedure operative
Definire procedure operative per la gestione delle modifiche, del ripristino di emergenza e delle attività di manutenzione di routine che l'automazione non può gestire. Seguire questa procedura:
Definire le procedure di gestione delle modifiche. Modifica è la causa principale dell'errore nel cloud. Sviluppare un processo standardizzato per la gestione delle modifiche per evitare errori nell'ambiente cloud. Vedi Gestire modifiche.
Definire le procedure di distribuzione (gestione delle versioni). Per mantenere una configurazione coerente, standardizzare le distribuzioni, le versioni e le promozioni dell'ambiente. Vedere Gestire le distribuzioni.
Definire le procedure di ripristino di emergenza e di continuità aziendale. Per gestire potenziali errori, preparare un piano di risposta standardizzato. Vedere Gestire il ripristino di emergenza e la continuità aziendale.
Definire procedure aggiuntive. processi di documento per la gestione delle richieste di servizio, dell'applicazione di patch e della gestione della configurazione. Documentare chiaramente questi processi per garantire agli stakeholder come avviare o completare ogni attività.
Documentazione delle guide operative
Creare guide dettagliate (runbook o playbook) per le attività operative principali. Questa preparazione garantisce un'esecuzione coerente, migliora l'efficienza e riduce i tempi di risoluzione durante gli eventi critici.
Definire le attività quotidiane. Preparare i manuali che coprono le responsabilità quotidiane, ad esempio le richieste di escalation dei privilegi e le revisioni dei log. Stabilire procedure operative standard (SOP) per il monitoraggio di metriche, soglie di avviso e dashboard per ogni sistema.
Creare una libreria di runbook incentrati su Azure. Creare runbook specifici di Azure che affrontano scenari quali:
Sceneggiatura Esempio Utilizzo elevato della CPU Gestire l'aumento delle prestazioni nel servizio app di Azure Failover (commutazione automatica) e failback (ritorno alla normalità) Failover e failback in Azure Site Recovery Distribuzioni blu/verde Distribuzione blu/verde in Frontdoor di Azure Ripristino del backup Ripristino del backup in Azure Blob Storage e Azure Cosmos DB Archiviare questi runbook in un repository centrale. Gestire i runbook in un repository centrale accessibile dai tecnici su chiamata per un uso immediato durante gli eventi imprevisti.
Implementare operazioni a livello di codice. Integrare l'infrastruttura come codice nei runbook per distribuire le risorse comuni in modo coerente e accurato ogni volta.
Rivedere e aggiornare. rivedere periodicamente la documentazione per riflettere le modifiche operative e gli aggiornamenti del servizio cloud.
Strumenti e soluzioni per documenti
La documentazione chiara garantisce coerenza, riduce i rischi operativi e migliora l'efficienza del team. Creare e gestire documentazione completa per gli strumenti cloud. Aggiornare regolarmente la documentazione per riflettere le procedure correnti e garantire un'accessibilità semplice per tutti i membri del team.
Area | Vantaggi di esempio |
---|---|
Integrazione | La standardizzazione semplifica le integrazioni consolidando i log e i repository di codice. |
Automazione | Riutilizzare i modelli IaC tra team, script di automazione e procedure consigliate tra i progetti. |
Gestione degli incidenti | Acquisire i problemi e generare azioni correttive che si integrano nei cicli di rilascio. |
Gestire le operazioni cloud
Una gestione efficace del cloud ottimizza l'efficienza operativa, riduce i tempi di inattività e chiarisce ruoli e responsabilità. Standardizzare le operazioni cloud tramite processi di automazione e supporto strutturato. Seguire queste linee guida operative:
Fornire supporto cloud continuo. Stabilire una copertura di supporto 24/7 tramite team globali che adottano un modello di follow-the-sun o rotazioni strutturate su chiamata. Definire chiaramente le responsabilità per garantire una risposta tempestiva e la risoluzione degli eventi imprevisti critici. Configurare avvisi automatizzati per notificare immediatamente al personale di supporto designato.
Automatizzare il lavoro ripetitivo. Usare le funzionalità di automazione di Azure per ridurre al minimo i processi manuali e ridurre il sovraccarico operativo. Automatizzare le attività di routine per eliminare gli errori, semplificare i flussi di lavoro e consentire ai team di concentrarsi sulle priorità strategiche.
Caso d'uso Esempi Automazione Automatizzare i flussi di lavoro in Azure Boards o nel sistema ITSM. Modelli per gli elementi di lavoro "Richiesta di modifica" e "Evento imprevisto". Risposta agli eventi imprevisti Per generare automaticamente i ticket degli eventi imprevisti con i campi standard popolati, integrare Monitoraggio di Azure e Integrità dei servizi di Azure con il sistema di creazione di ticket. Gestione delle modifiche Usare Azure Logic Apps per approvare automaticamente le modifiche a basso rischio o correggere automaticamente determinati incidenti. Conformità Usare Criteri di Azure per applicare e monitorare la conformità al cloud. Sicurezza Usare Microsoft Defender per Cloud e Microsoft Sentinel per automatizzare il rilevamento e la risposta delle minacce per la sicurezza. Usare Microsoft Entra ID Governance per esaminare le autorizzazioni e automatizzare la gestione delle autorizzazioni.
Migliorare le operazioni
Ottimizzare l'ambiente cloud di Azure promuovendo il miglioramento continuo. Valutare regolarmente le operazioni e classificare in ordine di priorità l'apprendimento e il feedback in corso. Seguire questa procedura:
Rivedere le operazioni per migliorare. Seguire le procedure consigliate per monitorare l'integrità, la conformità, la sicurezza, i costi, i dati e le risorse cloud. Condurre revisioni operative settimanali per discutere le metriche chiave, gli eventi imprevisti recenti, le modifiche distribuite e i rischi previsti. Affrontare attivamente la proliferazione delle risorse e il debito tecnico .
Eseguire il training per le operazioni. Favorire lo sviluppo continuo delle competenze assegnando priorità alle risorse di apprendimento essenziali. Gestire le operazioni cloud dinamiche tramite ambienti di training pratici. Nella tabella seguente vengono fornite risorse per il training delle operazioni.
Formazione operativa Descrizione Ottenere le credenziali Impostare obiettivi per le credenziali Microsoft , come competenze applicate e certificazioni Microsoft, per sviluppare expertise. Usare le risorse operative Vedere risorse di gestione di Azure. Usare la documentazione del prodotto Usare Microsoft Learn per trovare indicazioni su servizi di Azure. Esercitati concretamente Incoraggia l'esperienza pratica in ambienti sandbox non di produzione.
Risorse di gestione di Azure
Categoria | Risorsa di gestione | Descrizione |
---|---|---|
Conformità | Gestione del Framework di Cloud Adoption | Framework di governance del cloud di Microsoft |
Sicurezza | Gestire le operazioni di sicurezza | Linee guida per gestire le operazioni di sicurezza |
Sicurezza | strumento di sicurezza Microsoft | Elenco degli strumenti di sicurezza di Microsoft e Azure |
Sicurezza | Sicurezza del carico di lavoro | Linee guida per la sicurezza nella gestione del carico di lavoro |
Gestione delle risorse | Strategia di denominazione e assegnazione di tag | Denominazione e assegnazione di tag alle raccomandazioni per gestire le risorse |
Gestione delle risorse | abbreviazione di Azure | Elenco di abbreviazioni per le risorse di Azure |
Gestione delle risorse | Azure Advisor | Assistente digitale per allinearsi alle procedure consigliate di Azure. |
Gestione delle risorse | Regole per la denominazione in Azure | Regole di denominazione per tutte le risorse di Azure |
Gestione delle risorse | guide ai servizi di Azure | Linee guida per le decisioni di configurazione del servizio |
Sviluppo | Sviluppo di software per il carico di lavoro | Linee guida per il carico di lavoro per lo sviluppo di software |
Sviluppo | Centro Architettura di Azure | Architetture e guide per casi d'uso diversi |
Sviluppo | hub risorse per sviluppatori | Hub per strumenti e risorse per sviluppatori |
Distribuzione | Bicep, Terraform e modelli ARM | Modelli IaC per ogni risorsa di Azure |
Distribuzione | coppie di regioni di Azure | Elenco delle aree abbinate di Azure |
Distribuzione | Directory di Servizi Cloud di Azure | Elenco di tutti i servizi di Azure |
Distribuzione | Distribuzione del carico di lavoro | Linee guida sul carico di lavoro nell'integrazione continua |
Monitoraggio | Monitorare l'ambiente cloud di Azure | Linee guida complete sul monitoraggio di Azure |
Monitoraggio | monitoraggio del carico di lavoro | Linee guida per il monitoraggio del carico di lavoro |
Costo | Gestire i costi | Linee guida per la gestione dei costi |
Costo | Ottimizzazione dei costi del carico di lavoro | Linee guida per il carico di lavoro per l'ottimizzazione dei costi |
Affidabilità | Gestire l'affidabilità dei dati | Linee guida per mantenere l'affidabilità dei dati |
Affidabilità | Gestire l'affidabilità delle risorse cloud | Linee guida per mantenere l'affidabilità delle risorse |
Affidabilità | Gestire gli eventi imprevisti di sicurezza | Raccomandazioni per rispondere agli eventi imprevisti di sicurezza |
Prestazioni | Efficienza della performance del carico di lavoro | Indicazioni sul carico di lavoro per l'efficienza delle prestazioni |