Gestione degli eventi imprevisti per carichi di lavoro SaaS in Azure
I fornitori di software indipendenti (ISV) per le soluzioni SaaS (Software as a Service) devono gestire la soluzione per i clienti. Questa operazione richiede una configurazione e una cultura dell'organizzazione che gestisce senza problemi situazioni di produzione impreviste. L'architetto deve progettare di conseguenza processi e strumenti di gestione.
Questo articolo illustra come allineare le impostazioni cultura, i processi e gli strumenti dell'organizzazione per supportare la gestione degli eventi imprevisti di una soluzione SaaS di produzione.
Comprendere le responsabilità dell'utente come provider di servizi
La gestione di una soluzione SaaS significa che si è il reparto IT e operations 24x7 dei clienti. È necessario essere preparati con il personale, la cultura, i processi e gli strumenti appropriati.
Considerazioni relative alla progettazione
Responsabilità del supporto 24x7x365. Per gestire una soluzione SaaS, l'organizzazione deve essere sempre preparata per la risposta agli eventi imprevisti. Questa preparazione include sempre la disponibilità dei membri del team perché gli eventi imprevisti possono verificarsi al di fuori dell'orario lavorativo.
Il supporto live-site prevede il monitoraggio in tempo reale e la risposta a eventi imprevisti che influiscono sulla disponibilità del sistema, sulla sicurezza, sulle prestazioni o sulla distribuzione. L'utente o i clienti possono rilevare tali eventi imprevisti. Per gestire tali eventi imprevisti, sono necessarie competenze specifiche, inclusa la possibilità di analizzare e risolvere i problemi sotto pressione.
Il supporto live-site può essere stressante ed è importante supportare i membri del team. Se il team non ha questa responsabilità, pianificare attentamente la transizione. Risolvere i problemi relativi ai compiti on-call, alla compensazione e alla gestione dell'indisponibilità durante gli eventi imprevisti.
Rischio: gestione delle competenze e delle aspettative. Non tutti i tecnici sono adatti per un ruolo di supporto 24x7x365. Quando si esegue la transizione di un team preesistente per supportare una soluzione SaaS, assicurarsi che vengano impostate le aspettative appropriate e vengano fornite opportunità di istruzione.
Creare una cultura live-site. Valutare come gestire i casi di supporto e gli eventi imprevisti e il modo in cui si verificano le escalation. L'obiettivo è garantire che i membri del team comprendano le proprie responsabilità e abbiano le competenze e gli strumenti necessari per gestire gli eventi imprevisti.
Le startup e le organizzazioni più piccole potrebbero avere un piano leggero per i problemi del sito live. I tecnici potrebbero inizialmente fungere da supporto in prima linea rispondendo ai casi di assistenza clienti. Le organizzazioni mature o i provider SaaS con clienti aziendali necessitano di supporto più strutturato e team dedicati.
Compromesso: eccellenza operativa e costi. La gestione degli eventi live-site può sottrarre dal tempo di sviluppo nuove funzionalità o correzioni di bug. Se la velocità di sviluppo è un problema, prendere in considerazione l'assunzione di risorse live-site dedicate.
Suggerimenti per la progettazione
Elemento consigliato | Vantaggio |
---|---|
Introdurre un team sul campo per la gestione dei casi di supporto. Per casi complessi, questo team raccoglie le informazioni necessarie al team di progettazione per l'indagine. Un fornitore può fungere da team di supporto sul campo ed eseguire l'analisi iniziale dei problemi e risolvere i problemi semplici. |
Si evita di sovraccaricare il team di progettazione con responsabilità di gestione degli eventi imprevisti e di gestire le interruzioni ai propri compiti regolari. |
Investire in una funzione on-call per i tecnici per gestire casi complessi, analizzare e intervenire. Se possibile, ruotare le responsabilità di chiamata tra i membri del team, con ogni ingegnere in chiamata per alcuni giorni alla volta. |
Con responsabilità ben definite e percorsi di escalation, è possibile identificare e risolvere rapidamente i problemi senza interrompere il flusso di lavoro di progettazione. |
Procurarsi strumenti specializzati per la gestione degli eventi imprevisti. Assicurarsi che tutti i risponditori abbiano accesso e comprendano come usare questi strumenti in modo efficace. Selezionare gli strumenti in grado di monitorare lo stato del sistema, tenere traccia dei problemi segnalati dai clienti, identificare i problemi, inoltrarsi ai tecnici on-call, gestire tecnici non rispondenti e abilitare l'esecuzione delle modifiche nell'ambiente di produzione. |
Avere gli strumenti appropriati consente al team di chiamata di identificare e risolvere rapidamente gli eventi imprevisti mantenendo al tempo stesso la sicurezza e il controllo operativo. |
Migliorare il monitoraggio, le distribuzioni, gli aggiornamenti e altre normali operazioni di gestione. | Investendo nella maturità operativa, si riduce la probabilità di problemi live-site. Se si verificano problemi, la presenza di operazioni ben definite riduce il tempo di risoluzione. |
Definire il piano di risposta
Riconoscere che gli eventi imprevisti sono inevitabili e prepararli definendo un piano di risposta agli eventi imprevisti. Questo approccio proattivo impedisce di dover definire una strategia di risposta durante il primo evento imprevisto.
Pianificare in anticipo gli eventi imprevisti principali, che in genere influiscono sulla capacità dei clienti di usare il servizio. Questa preparazione consente di ridurre al minimo lo stress e la complessità quando si gestiscono gli eventi imprevisti man mano che si verificano.
Considerazioni relative alla progettazione
Definire il percorso di escalation. Assicurarsi che i team comprendano il processo di escalation per le attività di supporto. In molte soluzioni SaaS, i clienti contattano un team di supporto sul campo, che comunica quindi con il team di progettazione. Assicurarsi che i clienti sappiano con chi interagire e perché non dovrebbero ignorare questi processi. Assicurarsi inoltre che il team di progettazione sappia quando e come richiedere assistenza ai fornitori, inclusi i team di supporto di Microsoft.
Definire i livelli di gravità. Gli eventi imprevisti diversi variano in base all'importanza per l'utente e i clienti. Il modo in cui si gestisce un'interruzione di produzione principale differisce dal modo in cui si risolve un bug secondario. Definire i livelli di gravità in base all'impatto del cliente e impostare le aspettative e le sequenze temporali appropriate per ogni livello.
Informazioni sul documento necessarie per la valutazione. Mantenere aggiornata la documentazione è essenziale per una risposta efficace agli eventi imprevisti. Questa documentazione include il layout dell'architettura del sistema, i dettagli a livello di componente, i proprietari e i contatti chiave. Le informazioni imprecise o obsolete possono causare al team di risposta agli eventi imprevisti di perdere tempo prezioso per capire le operazioni del sistema, le responsabilità e il potenziale impatto dell'evento imprevisto.
Pianificare una comunicazione efficace con i clienti. Fornire aggiornamenti dello stato è fondamentale nella gestione degli eventi imprevisti. Gli aggiornamenti dello stato aiutano i clienti a comprendere la natura di un evento imprevisto e a ridurre anche il volume di casi di supporto da parte dei clienti che riscontrano problemi simili.
Suggerimenti per la progettazione
Elemento consigliato | Vantaggio |
---|---|
Fornire un processo di segnalazione degli eventi imprevisti chiaro, ad esempio l'apertura di un caso di supporto con il team di supporto sul campo, ai clienti. | Si garantisce coerenza nel modo in cui si individuano e rispondono agli eventi imprevisti, riducendo così il tempo necessario per la risoluzione e impedendo la perdita o l'trascurare delle informazioni. |
Documentare il layout dell'architettura, i dettagli a livello di componente, la privacy o le classificazioni di sicurezza, i proprietari e i contatti chiave. | Il team di valutazione ha le informazioni disponibili e può concentrarsi sulle indagini e sulla valutazione dell'impatto. |
Assicurarsi che il team di risposta agli eventi imprevisti possa accedere agli asset e ai sistemi necessari, ad esempio i log. Devono anche essere in grado di apportare modifiche di produzione tramite un processo sicuro e controllato. | È possibile ripristinare le operazioni più rapidamente assicurandosi che il team non stia sprecare tempo. |
Usare una pagina relativa allo stato commerciale anziché crearne una personalizzata. | Risparmiare tempo usando una pagina relativa allo stato commerciale. Una pagina di stato ospitata da un'altra organizzazione rimane accessibile anche ai clienti durante un'interruzione del sistema. |
Gestire gli eventi imprevisti in modo metodico
L'adesione al piano definito è fondamentale per evitare improvvisazioni durante il tempo di risposta. Questo approccio consente di ridurre al minimo lo stress e la complessità della gestione di queste situazioni.
Considerazioni relative alla progettazione
Assegnare la gravità dell'evento imprevisto. Usare il piano di risposta agli eventi imprevisti per determinare la gravità dell'evento imprevisto. I clienti sono spesso frustrati durante gli eventi imprevisti. È importante comprendere l'impatto visualizzato in modo che sia possibile assegnare priorità. Comunicare chiaramente la gravità dell'evento imprevisto in modo che i clienti abbiano aspettative realistiche.
Resta calmo e pensa chiaramente. Gli eventi imprevisti possono essere stressanti e ambigui, con più stakeholder che richiedono attenzione. Avere un processo chiaro per chi prende il comando all'interno di un evento imprevisto. Valutare gli eventi imprevisti nel modo migliore possibile, pur riconoscendo che potrebbe essere necessario operare con informazioni imperfette. Cerca di mantenere il controllo della situazione.
I responsabili dell'organizzazione possono aiutare schermaturando i membri del team che stanno indagando attivamente o mitigando un evento imprevisto.
Comunicare lo stato ai clienti. Aggiornare la pagina di stato per pubblicare informazioni sufficienti. Comunicare tempestivamente e fornire informazioni necessarie, ad esempio tempi di risoluzione stimati. Fornire ai clienti aggiornamenti frequenti per mantenere la fiducia.
Suggerimenti per la progettazione
Elemento consigliato | Vantaggio |
---|---|
Durante un evento imprevisto, classificare in ordine di priorità il ripristino rispetto all'individuazione. Quando si verifica un evento imprevisto, classificare in ordine di priorità le operazioni di ripristino rapidamente per ridurre al minimo le interruzioni ai clienti. |
Potrebbe essere possibile eseguire il ripristino eseguendo il routing intorno a un componente interessato o eseguendo il rollback di un aggiornamento, anche se non si capisce ancora cosa ha causato il problema. |
Fornire aggiornamenti tempestivi, chiari e frequenti durante le interruzioni. | È possibile infondere fiducia nei clienti e ridurre il carico di lavoro del team di supporto sul campo. |
Designare un responsabile delle comunicazioni durante un evento imprevisto attivo. Questo responsabile potrebbe essere una singola persona o ruotare la responsabilità tra i membri del team tra gli eventi imprevisti. | Avendo una voce per il team di progettazione, si centralizzano le conversazioni e si riducono le distrazioni ad altri membri del team. Si evita inoltre che le informazioni in conflitto raggiungano clienti o stakeholder durante un evento imprevisto caotico. |
Assicurarsi di avere un piano di supporto cruciale per i fornitori come Microsoft. | Se si verifica un'interruzione, sono necessarie comunicazioni reattive con i fornitori di piattaforme come Microsoft per determinare dove si verifica un problema e ridurre la durata dell'interruzione. |
Condurre revisioni post-evento imprevisto
Dopo aver eseguito il ripristino da un evento imprevisto, esaminare e analizzare ciò che è successo per apprenderlo. Implementare azioni di correzione, che possono includere modifiche tecniche, regolazioni dei processi o più training.
Considerazioni relative alla progettazione
Imparare dagli eventi imprevisti. Le interruzioni offrono preziose opportunità di apprendimento. Condurre revisioni approfondite dopo gli eventi imprevisti per identificare le lezioni e implementare miglioramenti. Gli eventi imprevisti principali hanno spesso più cause. Valutare se altri livelli della soluzione, ad esempio i processi operativi, potrebbero impedire o rilevare il problema prima dell'escalation. Inoltre, cercare modelli simili altrove nella soluzione che potrebbero anche essere a rischio dello stesso problema.
Comunicare con i clienti. Molti ISV forniscono comunicazioni post-evento imprevisto, soprattutto per i clienti aziendali che prevedono aggiornamenti di alta qualità. Essere trasparenti e fornire informazioni sufficienti per i clienti per comprendere i passaggi relativi al problema e alla mitigazione. Tuttavia, per mantenere la sicurezza e l'integrità, evitare di condividere dettagli interni eccessivi sull'architettura o sui componenti della soluzione.
Suggerimenti per la progettazione
Elemento consigliato | Vantaggio |
---|---|
Creare un processo per eseguire revisioni interne post-evento imprevisto. Concentrarsi sull'identificazione dei motivi che hanno contribuito al problema. Prendere in considerazione le cause tecniche, il modo in cui i processi potrebbero aver contribuito all'interruzione e come si è risposto all'evento imprevisto. |
Le revisioni interne post-evento imprevisto consentono di apprendere dalle interruzioni di produzione e ridurre al minimo il rischio di problemi simili che si verificano di nuovo. |
Creare un piano strutturato per risolvere eventuali elementi che necessitano di correzione. Includere chiare responsabilità e sequenze temporali. | Una chiara responsabilità consente di garantire che ogni ruolo soddisfi le proprie aspettative funzionali, migliora la chiarezza e consente la creazione di report trasparenti ai livelli desiderati. |
Pubblicare revisioni post-evento imprevisto rivolte ai clienti. Fornire ai clienti dettagli sufficienti per comprendere i passaggi relativi al problema e alla mitigazione senza rivelare dettagli interni o architettura di sistema non necessari. Le comunicazioni post-evento imprevisto devono essere sempre scritte e pubblicate dagli esseri umani. Gli stakeholder tecnici e non tecnici devono esaminare le comunicazioni per garantire precisione e chiarezza. |
Questo approccio consente di mantenere la fiducia dei clienti e di assicurarsi che si sia appreso dall'evento imprevisto e di affrontare i problemi identificati. |
Passaggio successivo
Dopo aver esaminato le aree di progettazione, passare allo strumento di valutazione per valutare la progettazione.