Procedure consigliate per l’affidabilità in Monitoraggio di Azure
Nel cloud si riconosce che gli errori possono verificarsi. Invece di provare a evitare completamente gli errori, l'obiettivo deve essere quello di ridurre al minimo gli effetti di un singolo componente in errore. Usare le informazioni seguenti per monitorare eventuali errori delle macchine virtuali e dei relativi carichi di lavoro client.
Questo articolo illustra l'affidabilità per Monitoraggio di Azure come parte di Well-Architected Framework di Azure. Azure Well-Architected Framework è una serie di principi guida utilizzabili per migliorare la qualità dei carichi di lavoro. Il framework è costituito da cinque pilastri di eccellenza dell'architettura:
- Affidabilità
- Sicurezza
- Ottimizzazione dei costi
- Eccellenza operativa
- Efficienza delle prestazioni
Log di Monitoraggio di Azure
Le aree di lavoro Log Analytics offrono un elevato livello di affidabilità. La pipeline di inserimento, che invia i dati raccolti all'area di lavoro Log Analytics, verifica che l'area di lavoro Log Analytics elabori correttamente ogni record di log prima di rimuovere il record dalla pipe. Se la pipeline di inserimento non è disponibile, gli agenti inviano il buffer dei dati e riprovano a inviare i log per molte ore.
Funzionalità dei log di Monitoraggio di Azure che migliorano la resilienza
I log di Monitoraggio di Azure offrono diverse funzionalità che migliorano la resilienza delle aree di lavoro a vari tipi di problemi. È possibile usare queste funzionalità singolarmente o in combinazione, a seconda delle esigenze.
Questo video offre una panoramica delle opzioni di affidabilità e resilienza disponibili per le aree di lavoro Log Analytics:
Protezione nell'area usando le zone di disponibilità
Ogni area di Azure che supporta le zone di disponibilità include un set di data center dotati di potenza, raffreddamento e infrastruttura di networking.
Le zone di disponibilità dei log di Monitoraggio di Azure presentano ridondanza, il che significa che Microsoft distribuisce le richieste di servizio e replica i dati tra zone diverse nelle aree supportate. Se un evento imprevisto interessa una zona, Microsoft usa automaticamente una zona di disponibilità diversa nell'area. Non è necessario eseguire alcuna azione perché il passaggio tra le zone è facile.
Nella maggior parte delle aree, le zone di disponibilità dei log di Monitoraggio di Azure supportano resilienza dei dati, il che significa che i dati archiviati sono protetti da perdite di dati correlate a errori di zona, ma le operazioni del servizio potrebbero comunque essere interessate da eventi imprevisti a livello di area. Se il servizio non è in grado di eseguire query, non è possibile visualizzare i log finché il problema non viene risolto.
Un subset delle zone di disponibilità che supportano la resilienza dei dati supporta anche la resilienza del servizio, il che significa che le operazioni del servizio log di Monitoraggio di Azure, ad esempio l'inserimento log, query e avvisi, possono continuare in caso di errore di zona.
Le zone di disponibilità proteggono da eventi imprevisti correlati all'infrastruttura, ad esempio errori di archiviazione. Non proteggono da problemi a livello di applicazione, ad esempio distribuzioni di codice difettoso o errori di certificato, che influiscono sull'intera area.
Backup dei dati da tabelle specifiche tramite l'esportazione continua
È possibile esportare continuamente i dati inviati a tabelle specifiche nell'area di lavoro Log Analytics negli account di archiviazione di Azure.
L'account di archiviazione in cui si esportano i dati deve trovarsi nella stessa area dell'area di lavoro Log Analytics. Per proteggere e avere accesso ai log inseriti, anche se l’area dell'area di lavoro è inattiva, usare un account di archiviazione con ridondanza geografica, come illustrato in Raccomandazioni di configurazione.
Il meccanismo di esportazione non fornisce protezione dagli eventi imprevisti che influisce sulla pipeline di inserimento o sul processo di esportazione stesso.
Nota
È possibile accedere ai dati in un account di archiviazione dai log di Monitoraggio di Azure usando l'operatore externaldata. Tuttavia, i dati esportati vengono archiviati in BLOB di cinque minuti e l'analisi dei dati che si estendono su più BLOB può essere complessa. Pertanto, l'esportazione dei dati in un account di archiviazione è un buon meccanismo di backup dei dati, ma il backup dei dati in un account di archiviazione non è ideale se necessario per l'analisi nei log di Monitoraggio di Azure. È possibile eseguire query su grandi volumi di dati BLOB usando Esplora dati di Azure, Azure Data Factory o qualsiasi altro strumento di accesso alle risorse di archiviazione.
Protezione dei dati tra aree e resilienza del servizio tramite la replica dell'area di lavoro (anteprima)
La replica dell'area di lavoro (anteprima) è la soluzione di resilienza più estesa perché replica l'area di lavoro Log Analytics e i log in ingresso in un'altra area.
La replica dell'area di lavoro protegge sia i log che le operazioni del servizio e consente di continuare a monitorare i sistemi in caso di eventi imprevisti a livello di infrastruttura o di aree correlate all'applicazione.
A differenza delle zone di disponibilità, gestite da Microsoft end-to-end, è necessario monitorare l'integrità dell'area di lavoro primaria e decidere quando passare all'area di lavoro nell’area secondaria e viceversa.
Elenco di controllo della progettazione
- Per garantire la resilienza dei servizi e dei dati agli eventi imprevisti a livello di area, abilitare la replica dell'area di lavoro.
- Per garantire la protezione nell'area dagli errori del data center, creare l'area di lavoro in un'area che supporta le zone di disponibilità.
- Per il backup tra aree di dati in tabelle specifiche, usare la funzionalità di esportazione continua per inviare dati a un account di archiviazione con replica geografica.
- Monitorare l'integrità delle aree di lavoro Log Analytics.
Raccomandazioni per la configurazione
Elemento consigliato | Vantaggio |
---|---|
Per garantire il massimo grado di resilienza, abilitare la replica dell'area di lavoro. | Resilienza tra aree per le operazioni su dati e servizi dell'area di lavoro. La replica dell'area di lavoro (anteprima) garantisce la disponibilità elevata creando un'istanza secondaria dell'area di lavoro in un'altra area e inserendo i log in entrambe le aree di lavoro. Quando necessario, passare all'area di lavoro secondaria fino a quando non vengono risolti i problemi che influiscono sull'area di lavoro primaria. È possibile continuare a inserire log, eseguire query sui dati usando dashboard, avvisi e Sentinel nell'area di lavoro secondaria. Inoltre è possibile accedere ai log inseriti prima del cambio di area. Si tratta di una funzionalità a pagamento, quindi valutare se si desidera replicare tutti i log in ingresso o solo alcuni flussi di dati. |
Se possibile, creare l'area di lavoro in un'area che supporta la resilienza del servizio Monitoraggio di Azure. | Resilienza nell'area dei dati dell'area di lavoro e delle operazioni del servizio in caso di problemi del data center. Le zone di disponibilità che supportano la resilienza del servizio supportano anche la resilienza dei dati. Ciò significa che anche se un intero data center diventa non disponibile, la ridondanza tra le zone consente le operazioni del servizio Monitoraggio di Azure, come inserimento ed esecuzione di query, continuità di funzionamento e disponibilità dei log inseriti. Le zone di disponibilità offrono protezione nell'area, ma non proteggono da problemi che influiscono sull'intera area. Per informazioni sulle aree che supportano la resilienza dei dati, vedere Migliorare la resilienza dei dati e dei servizi nei log di Monitoraggio di Azure con zone di disponibilità. |
Creare l'area di lavoro in un'area che supporta la resilienza dei dati. | Protezione nell'area da perdita dei log nell'area di lavoro in caso di problemi del data center. La creazione dell'area di lavoro in un'area che supporta la resilienza dei dati significa che, anche se l'intero data center diventa non disponibile, i log inseriti sono sicuri. Se il servizio non è in grado di eseguire query, non è possibile visualizzare i log finché il problema non viene risolto. Per informazioni sulle aree che supportano la resilienza dei dati, vedere Migliorare la resilienza dei dati e dei servizi nei log di Monitoraggio di Azure con zone di disponibilità. |
Configurare l'esportazione dei dati da tabelle specifiche in un account di archiviazione replicato tra aree. | Mantenere una copia di backup dei dati di log in un'area diversa. La funzionalità di esportazione dei dati di Monitoraggio di Azure consente di esportare continuamente i dati inviati a tabelle specifiche nell'archiviazione di Azure in cui è possibile conservarli per periodi prolungati. Usare un account di archiviazione con ridondanza geografica o archiviazione con ridondanza geografica della zona per proteggere i dati anche se un'intera area non è più disponibile. Per rendere i dati leggibili dalle altre aree, configurare l'account di archiviazione per l'accesso in lettura all'area secondaria. Per altre informazioni, vedere Ridondanza di Archiviazione di Azure in un'area secondaria e Accesso in lettura ad Archiviazione di Azure ai dati nell'area secondaria. Per tabelle che non supportano l'esportazione continua dei dati, è possibile usare altri metodi di esportazione dei dati, tra cui App per la logica, per proteggere i dati. Si tratta principalmente di una soluzione per soddisfare la conformità per la conservazione dei dati poiché i dati possono essere difficili da analizzare e ripristinare nell'area di lavoro. L'esportazione dei dati è soggetta a eventi imprevisti a livello di area perché si basa sulla stabilità della pipeline di inserimento di Monitoraggio di Azure nell'area. Non offre resilienza contro gli eventi imprevisti che influiscono sulla pipeline di inserimento a livello di area. |
Monitorare l'integrità delle aree di lavoro Log Analytics. | Usare le informazioni dettagliate dell'area di lavoro Log Analytics per tenere traccia delle query non riuscite e creare un avviso sullo stato di integrità per notificare in modo proattivo se un'area di lavoro non è più disponibile a causa di un data center o di un errore a livello di area. |
Confrontare le funzionalità di resilienza dei log di Monitoraggio di Azure
Funzionalità | Resilienza del servizio | Backup dei dati | Disponibilità elevata | Ambito di protezione | Attrezzaggio | Costo |
---|---|---|---|---|---|---|
Replica dell'area di lavoro | ✅ | ✅ | ✅ | Protezione tra aree contro gli eventi imprevisti a livello di area | Abilitare la replica dell'area di lavoro e delle regole di raccolta dati correlate. Passare da un'area all'altra in base alle esigenze. | In base al numero di GB replicati e all'area. |
Zone di disponibilità | ✅ Nelle aree supportate |
✅ | ✅ | Protezione nell'area da problemi del data center | Abilitata automaticamente nelle aree supportate. | Nessun costo |
Esportazione dati continua | ✅ | Protezione dalla perdita di dati a causa di un errore a livello di area 1 | Abilitare per tabella. | Costo dell'esportazione dei dati + BLOB di archiviazione o Hub eventi |
1 L'esportazione dei dati fornisce protezione tra aree se si esportano i log in un'area diversa. In caso di evento imprevisto, i dati esportati in precedenza vengono sottoposti a backup e resi prontamente disponibili; tuttavia, un'ulteriore esportazione potrebbe non riuscire, a seconda della natura dell'evento imprevisto.
Avvisi
Gli avvisi di Monitoraggio di Azure offrono un elevato livello di affidabilità senza alcuna decisione di progettazione. Le condizioni in cui può verificarsi una perdita temporanea di dati di avviso sono spesso attenuate dalle funzionalità di altri componenti di Monitoraggio di Azure.
Elenco di controllo della progettazione
- Configurare le regole di avviso per l'integrità dei servizi.
- Configurare le regole di avviso per l'integrità risorse.
- Evitare limiti di servizio per le regole di avviso che generano notifiche su larga scala.
Raccomandazioni per la configurazione
Elemento consigliato | Vantaggio |
---|---|
Configurare le regole di avviso per l'integrità dei servizi. | Gli avvisi di integrità dei servizi inviano notifiche per interruzioni del servizio, interruzioni del servizio, manutenzione pianificata e avvisi di sicurezza. Vedere Creare o modificare una regola di avviso. |
Configurare le regole di avviso per l'integrità risorse. | Integrità risorse invia una notifica quasi in tempo reale quando tali risorse subiscono una modifica al loro stato di integrità. Vedere Creare o modificare una regola di avviso. |
Evitare limiti di servizio per le regole di avviso che generano notifiche su larga scala. | Se si dispone di regole di avviso che inviano un numero elevato di notifiche, è possibile che si raggiungano i limiti del servizio usato per inviare notifiche e-mail o SMS. Configurare azioni a livello di codice o scegliere un metodo di notifica o un provider alternativo per gestire le notifiche su larga scala. Vedere Limiti del servizio per le notifiche. |
Macchine virtuali
Elenco di controllo della progettazione
- Creare regole di avviso sulla disponibilità per le macchine virtuali di Azure.
- Creare una regola di avviso heartbeat dell'agente per verificare l'integrità agente.
- Configurare la raccolta dati e gli avvisi per il monitoraggio dell'affidabilità dei flussi di lavoro client.
Raccomandazioni per la configurazione
Suggerimento | Descrizione |
---|---|
Creare regole di avviso sulla disponibilità per le macchine virtuali di Azure. | Usare la metrica di disponibilità (anteprima) per tenere traccia dell'esecuzione di una macchina virtuale di Azure. Sebbene sia possibile abilitare rapidamente una regola di avviso di disponibilità per un singolo computer usando gli avvisi consigliati, una singola regola di avviso destinata a un gruppo di risorse o a una sottoscrizione, abilita gli avvisi di disponibilità per tutte le macchine virtuali in tale ambito per una determinata area. Questa operazione è più semplice da gestire rispetto alla creazione di una regola di avviso per ogni macchina virtuale e garantisce che tutte le nuove VM create nell'ambito siano monitorate automaticamente. Questa regola di avviso non richiede l'installazione dell'agente di Monitoraggio di Azure nella macchina virtuale, ma non è disponibile per le macchine virtuali all'esterno di Azure. |
Creare una regola di avviso heartbeat dell'agente per verificare l'integrità agente. | L'agente di Monitoraggio di Azure invia un heartbeat ogni minuto all'area di lavoro Log Analytics. Usare una regola di avviso utilizzando l'heartbeat agente per ricevere avvisi quando un agente interrompe l'invio di heartbeat, un indicatore del fatto che la macchina virtuale è inattiva o che l'agente non è integro e i carichi di lavoro client non sono monitorati. Questa regola di avviso richiede che l'agente di Monitoraggio di Azure sia installato nella macchina virtuale e che si applichi alle macchine virtuali di Azure e non di Azure. |
Configurare la raccolta dati e gli avvisi per il monitoraggio dell'affidabilità dei flussi di lavoro client. | Usare le informazioni in Monitorare le macchine virtuali con Monitoraggio macchine virtuali con il Monitoraggio di Azure: raccogliere dati per configurare la raccolta di eventi client che indica potenziali problemi con i carichi di lavoro client. Usare le informazioni in Monitorare le macchine virtuali con Monitoraggio macchine virtuali con il Monitoraggio di Azure: avvisi per creare regole di avviso che provvedano alla notifica proattiva di potenziali problemi operativi dei carichi di lavoro client. |
Contenitori
Elenco di controllo della progettazione
- Abilitare lo scorporo delle metriche Prometheus per il cluster.
- Abilitare Informazioni dettagliate sui contenitori per la raccolta di log e dati sulle prestazioni dal cluster.
- Creare impostazioni di diagnostica per raccogliere i log del piano di controllo per i cluster del servizio Azure Kubernetes.
- Abilitare gli avvisi di Prometheus consigliati.
- Verificare la disponibilità dell'area di lavoro Log Analytics che supporta Informazioni dettagliate sui contenitori.
Raccomandazioni per la configurazione
Elemento consigliato | Vantaggio |
---|---|
Abilitare lo scorporo delle metriche Prometheus per il cluster. | Abilitare Prometheus nel cluster con Servizio gestito di Monitoraggio di Azure per Prometheus se non si ha già un ambiente Prometheus. Usare Grafana con gestione Azure per analizzare i dati di Prometheus raccolti. Vedere Personalizzare lo scarto delle metriche Prometheus nel servizio gestito di Monitoraggio di Azure per Prometheus per raccogliere metriche aggiuntive oltre alla configurazione predefinita. |
Abilitare Informazioni dettagliate sui contenitori per la raccolta di log e dati sulle prestazioni dal cluster. | Informazioni dettagliate sui contenitori raccoglie i log stdout/stderr, le metriche delle prestazioni e gli eventi Kubernetes da ogni nodo del cluster. Fornisce dashboard e report per l'analisi di questi dati, inclusa la disponibilità dei nodi e di altri componenti. Usare Log Analytics per identificare eventuali errori di disponibilità nei log raccolti. |
Creare impostazioni di diagnostica per raccogliere i log del piano di controllo per i cluster del servizio Azure Kubernetes. | Il servizio Azure Kubernetes implementa i log dei piani di controllo come log delle risorse in Monitoraggio di Azure. Creare un'impostazione di diagnostica per inviare questi log all'area di lavoro Log Analytics in modo da poter usare query di log per identificare gli errori e i problemi che interessano la disponibilità. |
Abilitare gli avvisi di Prometheus consigliati. | Gli avvisi in Monitoraggio di Azure notificano in modo proattivo quando vengono rilevati problemi. Iniziare con un set di regole di avviso Prometheus consigliate che rilevano i problemi di disponibilità e prestazioni più comuni con il cluster. Aggiungere potenzialmente avvisi per la ricerca log usando i dati raccolti da Informazioni dettagliate sui contenitori. |
Verificare la disponibilità dell'area di lavoro Log Analytics che supporta Informazioni dettagliate sui contenitori. | Le informazioni dettagliate sui contenitori si basano su un'area di lavoro Log Analytics. Vedere Procedure consigliate per i log di Monitoraggio di Azure per consigli per garantire l'affidabilità dell'area di lavoro. |