Meilleures pratiques de fiabilité dans Azure Monitor
Dans le cloud, nous reconnaissons que des échecs se produisent. Au lieu d’essayer d’empêcher toutes les défaillances, l’objectif est de réduire les répercussions d’une défaillance potentielle au niveau de chaque composant. Utilisez les informations suivantes pour surveiller vos machines virtuelles et leurs charges de travail clientes.
Cet article décrit la Fiabilité pour Azure Monitor dans le cadre d’Azure Well-Architected Framework. Azure Well-Architected Framework est un ensemble de principes directeurs qui peuvent être utilisés pour améliorer la qualité d’une charge de travail. Le framework se compose des cinq piliers de l’excellence architecturale :
- Fiabilité
- Sécurité
- Optimisation des coûts
- Excellence opérationnelle
- Efficacité des performances
Journaux Azure Monitor
Les espaces de travail Log Analytics fournissent un degré élevé de fiabilité. Le pipeline d’ingestion, qui envoie des données collectées à l’espace de travail Log Analytics, valide que l’espace de travail Log Analytics traite correctement chaque enregistrement de journal avant de supprimer l’enregistrement du canal. Si le pipeline d’ingestion n’est pas disponible, les agents qui envoient la mémoire tampon de données et réessayent d’envoyer les journaux pendant de nombreuses heures.
Fonctionnalités des journaux Azure Monitor qui améliorent la résilience
Les journaux Azure Monitor offrent plusieurs fonctionnalités qui améliorent la résilience des espaces de travail à différents types de problèmes. Vous pouvez utiliser ces fonctionnalités individuellement ou en combinaison, en fonction de vos besoins.
Cette vidéo fournit une vue d’ensemble des options de fiabilité et de résilience disponibles pour les espaces de travail Log Analytics :
Protection dans une région à l’aide de zones de disponibilité
Chaque région Azure qui prend en charge les zones de disponibilité dispose d’un ensemble de centres de données équipés d’une alimentation indépendante, d’un refroidissement et d’une infrastructure réseau.
Les zones de disponibilité des journaux Azure Monitor sont redondantes, ce qui signifie que Microsoft répartit les demandes de service et réplique les données entre différentes zones dans les régions prises en charge. Si un incident affecte une zone, Microsoft utilise une autre zone de disponibilité dans la région, automatiquement. Vous n’avez pas besoin d’effectuer une action, car le basculement entre les zones est transparent.
Dans la plupart des régions, les zones de disponibilité des journaux Azure Monitor prennent en charge la résilience des données, ce qui signifie que vos données stockées sont protégées contre la perte de données liée aux défaillances zonales, mais les opérations de service peuvent toujours être affectées par des incidents régionaux. Si le service ne peut pas exécuter de requêtes, vous ne pouvez pas afficher les journaux tant que le problème n’est pas résolu.
Un sous-ensemble des zones de disponibilité qui prennent en charge la résilience des données prend également en charge la résilience des services, ce qui signifie que les opérations de service Journaux Azure Monitor (par exemple, l’ingestion de journal, les requêtes et les alertes) peuvent continuer en cas de défaillance de zone.
Les zones de disponibilité protègent contre les incidents liés à l’infrastructure, tels que les défaillances de stockage. Elles ne protègent pas contre les problèmes au niveau de l’application, tels que les déploiements de code défectueux ou les échecs de certificat, qui ont un impact sur l’ensemble de la région.
Sauvegarde des données à partir de tables spécifiques à l’aide de l’exportation continue
Vous pouvez exporter en continu les données envoyées à des tables spécifiques de votre espace de travail Log Analytics vers des comptes de stockage Azure.
Le compte de stockage vers lequel vous exportez des données doit se trouver dans la même région que votre espace de travail Log Analytics. Pour protéger et accéder à vos journaux ingérés, même si la région de l’espace de travail est en panne, utilisez un compte de stockage géoredondant, comme expliqué dans les Recommandations de configuration.
Le mécanisme d’exportation ne fournit pas de protection contre les incidents impactant le pipeline d’ingestion ou le processus d’exportation lui-même.
Remarque
Vous pouvez accéder aux données d’un compte de stockage à partir des journaux Azure Monitor à l’aide de l’opérateur externaldata. Toutefois, les données exportées sont stockées dans des objets blob de cinq minutes et l’analyse des données couvrant plusieurs objets blob peut être fastidieuse. Par conséquent, l’exportation de données vers un compte de stockage est un bon mécanisme de sauvegarde des données, mais le fait d’avoir les données sauvegardées dans un compte de stockage n’est pas idéal si vous en avez besoin pour l’analyse dans les journaux Azure Monitor. Vous pouvez interroger de grands volumes de données blob à l’aide d’Azure Data Explorer, d’Azure Data Factory ou d’un autre outil d’accès au stockage.
Protection des données et résilience des services interrégions à l’aide de la réplication de l’espace de travail (préversion)
La réplication de l’espace de travail (préversion) est la solution de résilience la plus étendue, car elle réplique l’espace de travail Log Analytics et les journaux entrants dans une autre région.
La réplication de l’espace de travail protège à la fois vos journaux et les opérations de service et vous permet de continuer à superviser vos systèmes en cas d’incidents à l’échelle de l’infrastructure ou de l’application.
Contrairement aux zones de disponibilité, que Microsoft gère de bout en bout, vous devez superviser l’intégrité de votre espace de travail principal et décider quand basculer vers l’espace de travail dans la région secondaire et rebasculer dans l’espace de travail principal.
Check-list pour la conception
- Pour garantir la résilience des services et des données aux incidents à l’échelle de la région, activez la réplication de l’espace de travail.
- Pour garantir la protection dans la région contre les défaillances de centre de données, créez votre espace de travail dans une région qui prend en charge les zones de disponibilité.
- Pour la sauvegarde interrégion des données dans des tables spécifiques, utilisez la fonctionnalité d’exportation continue pour envoyer des données à un compte de stockage géorépliqué.
- Superviser l’intégrité de vos espaces de travail Log Analytics.
Recommandations relatives à la configuration
Recommandation | Avantage |
---|---|
Pour garantir le plus grand degré de résilience, activez la réplication de l’espace de travail. | Résilience interrégion pour les opérations de service et de données d’espace de travail. La réplication de l’espace de travail (préversion) garantit une haute disponibilité en créant une instance secondaire de votre espace de travail dans une autre région et en ingérant vos journaux dans les deux espaces de travail. Si nécessaire, basculez vers votre espace de travail secondaire jusqu’à ce que les problèmes ayant un impact sur votre espace de travail principal soient résolus. Vous pouvez continuer à ingérer des journaux, interroger des données et utiliser les tableaux de bord, les alertes et Sentinel dans votre espace de travail secondaire. Vous avez également accès aux journaux ingérés avant le changement de région. Il s’agit d’une fonctionnalité payante. Pensez donc à répliquer tous vos journaux entrants ou seulement certains flux de données. |
Si possible, créez votre espace de travail dans une région qui prend en charge la résilience des services Azure Monitor. | Résilience dans la région des opérations de service et de données d’espace de travail en cas de problèmes de centre de données. Les zones de disponibilité qui prennent en charge la résilience des services prennent également en charge la résilience des données. Cela signifie que même si un centre de données entier devient indisponible, la redondance entre les zones permet aux opérations de service Azure Monitor, telles que l’ingestion et l’interrogation, de continuer à fonctionner, et vos journaux d’activité ingérés restent disponibles. Les zones de disponibilité fournissent une protection dans la région, mais ne protègent pas contre les problèmes qui affectent l’ensemble de la région. Pour plus d’informations sur les régions qui prennent en charge la résilience des données, consultez Améliorer la résilience des données et des services dans les journaux Azure Monitor avec des zones de disponibilité. |
Créez votre espace de travail dans une région qui prend en charge la résilience des données. | Protection dans la région contre la perte des journaux d’activité dans votre espace de travail en cas de problèmes de centre de données. La création de votre espace de travail dans une région prenant en charge la résilience des données signifie que même si l’ensemble du centre de données devient indisponible, vos journaux ingérés sont sécurisés. Si le service ne peut pas exécuter de requêtes, vous ne pouvez pas afficher les journaux tant que le problème n’est pas résolu. Pour plus d’informations sur les régions qui prennent en charge la résilience des données, consultez Améliorer la résilience des données et des services dans les journaux Azure Monitor avec des zones de disponibilité. |
Configurez l’exportation de données à partir de tables spécifiques vers un compte de stockage répliqué entre les régions. | Conservez une copie de sauvegarde de vos données de journal dans une autre région. La fonctionnalité d’exportation de données d’Azure Monitor vous permet d’exporter en continu les données envoyées à des tables spécifiques vers le stockage Azure, où elles peuvent être conservées pendant de longues périodes. Utilisez un compte de stockage géoredondant (GRS) ou de stockage géoredondant interzone (GZRS) pour sécuriser vos données même si une région entière devient indisponible. Pour rendre vos données lisibles à partir des autres régions, configurez votre compte de stockage pour l’accès en lecture à la région secondaire. Pour plus d’informations, consultez Redondance du Stockage Azure sur une région secondaire et Accès en lecture au Stockage Azure aux données de la région secondaire. Pour les tables qui n’ont pas pris en charge l’exportation continue des données, vous pouvez utiliser d’autres méthodes d’exportation de données, notamment Logic Apps, pour protéger vos données. Il s’agit principalement d’une solution de conformité pour la conservation des données, car les données peuvent être difficiles à analyser et à restaurer dans l’espace de travail. L’exportation de données est susceptible d’entraîner des incidents régionaux, car elle s’appuie sur la stabilité du pipeline d’ingestion Azure Monitor dans votre région. Elle ne fournit pas de résilience contre les incidents ayant un impact sur le pipeline d’ingestion régional. |
Superviser l’intégrité de vos espaces de travail Log Analytics. | Utilisez les insights d’espace de travail Log Analytics pour suivre les requêtes qui ont échoué et créer une alerte d’état d’intégrité pour vous avertir de manière proactive si un espace de travail est indisponible en raison de la défaillance d’un centre de données ou d’une région. |
Comparer les fonctionnalités de résilience des journaux Azure Monitor
Fonctionnalité | Résilience de service | Sauvegarde de données | Haute disponibilité | Étendue de la protection | Paramétrage | Cost |
---|---|---|---|---|---|---|
Réplication de l’espace de travail | ✅ | ✅ | ✅ | Protection interrégion contre les incidents à l’échelle de la région | Activez la réplication de l’espace de travail et des règles de collecte de données associées. Passez d’une région à une autre en fonction des besoins. | En fonction du nombre de gigaoctets et de régions répliqués. |
Zones de disponibilité | ✅ Dans les régions prises en charge |
✅ | ✅ | Protection dans la région contre les problèmes liés au centre de données | Activé automatiquement dans les régions prises en charge. | Aucun coût |
Exportation de données continue | ✅ | Protection contre la perte de données en raison d’une défaillance régionale 1 | Activer par table. | Coût de l’exportation de données + Objet blob de stockage ou Event Hubs |
1 L’exportation de données offre une protection interrégion si vous exportez des journaux vers un compte de stockage géorépliqué. En cas d’incident, les données précédemment exportées sont sauvegardées et facilement disponibles ; toutefois, une exportation supplémentaire peut échouer, en fonction de la nature de l’incident.
Alertes
Les alertes Azure Monitor offrent un haut degré de fiabilité sans aucune décision de conception. Les conditions dans lesquelles une perte temporaire de données d’alerte peut se produire sont souvent atténuées par les fonctionnalités des autres composants Azure Monitor.
Check-list pour la conception
- Configurer des règles d’alerte pour l’intégrité de service.
- Configurer des règles d’alerte pour l’intégrité des ressources.
- Éviter les limites de service pour les règles d’alerte qui produisent des notifications à grande échelle.
Recommandations relatives à la configuration
Recommandation | Avantage |
---|---|
Configurer des règles d’alerte pour l’intégrité de service. | Les alertes d’intégrité du service vous envoient des notifications pour les pannes, les interruptions de service, la maintenance planifiée et les avis de sécurité. Consultez Créer ou modifier une règle d’alerte. |
Configurer des règles d’alerte pour l’intégrité des ressources. | Les alertes d’intégrité des ressources peuvent vous signaler en quasi-temps réel tout changement de l’état d’intégrité de ces ressources. Consultez Créer ou modifier une règle d’alerte. |
Éviter les limites de service pour les règles d’alerte qui produisent des notifications à grande échelle. | Si vous avez des règles d’alerte qui envoient un grand nombre de notifications, vous pouvez atteindre les limites du service que vous utilisez pour envoyer des notifications par e-mail ou SMS. Configurez des actions programmatiques, ou choisissez une autre méthode de notification ou un autre fournisseur pour gérer les notifications à grande échelle. Consultez Limites de service pour les notifications. |
Machines virtuelles
Check-list pour la conception
- Créez des règles d’alerte de disponibilité pour les machines virtuelles Azure.
- Créez une règle d’alerte de pulsation de l’agent pour vérifier l’intégrité de l’agent.
- Configurez la collecte de données et les alertes pour surveiller la fiabilité des workflows clients.
Recommandations relatives à la configuration
Recommandation | Description |
---|---|
Créez des règles d’alerte de disponibilité pour les machines virtuelles Azure. | Utilisez la métrique de disponibilité (préversion) pour suivre l’exécution d’une machine virtuelle Azure. Bien que vous puissiez activer rapidement une règle d’alerte de disponibilité pour un ordinateur individuel à l’aide des alertes recommandées, une seule règle d’alerte ciblant un groupe de ressources ou un abonnement active les alertes de disponibilité pour toutes les machines virtuelles dans cette étendue pour une région particulière. Cela est plus facile à gérer que la création d’une règle d’alerte pour chaque machine virtuelle et garantit que toutes les nouvelles machines virtuelles créées dans l’étendue sont automatiquement surveillées. Cette règle d’alerte ne nécessite pas l’installation de l’agent Azure Monitor sur la machine virtuelle, mais elle n’est pas disponible pour les machines virtuelles en dehors d’Azure. |
Créez une règle d’alerte de pulsation de l’agent pour vérifier l’intégrité de l’agent. | L’agent Azure Monitor envoie une pulsation à l’espace de travail Log Analytics toutes les minutes. Utilisez une règle d’alerte de recherche dans les journaux à l’aide de la pulsation de l’agent pour être alerté lorsqu’un agent cesse d’envoyer des pulsations, ce qui indique que la machine virtuelle est en panne ou que l’agent est défectueux et que les charges de travail clientes ne sont pas surveillées. Cette règle d’alerte nécessite que l’agent Azure Monitor soit installé sur la machine virtuelle et s’applique aux machines virtuelles Azure et non-Azure. |
Configurez la collecte de données et les alertes pour surveiller la fiabilité des workflows clients. | Utilisez les informations contenues dans Surveiller les machines virtuelles avec Azure Monitor : Collecter des données pour configurer la collecte d’événements client indiquant des problèmes potentiels avec vos charges de travail clientes. Utilisez les informations de Surveiller les machines virtuelles avec Surveiller les machines virtuelles avec Azure Monitor : Alertes pour créer des règles d’alerte afin d’être averti de manière proactive de tout problème opérationnel potentiel avec vos charges de travail clientes. |
conteneurs
Check-list pour la conception
- Activez la récupération des métriques Prometheus pour votre cluster.
- Activez Container Insights pour la collecte de journaux et de données de performances à partir de votre cluster.
- Créez des paramètres de diagnostic pour collecter les journaux du plan de contrôle pour les clusters AKS.
- Activez les alertes Prometheus recommandées.
- Vérifiez la disponibilité de l’espace de travail Log Analytics prenant en charge Container Insights.
Recommandations relatives à la configuration
Recommandation | Avantage |
---|---|
Activez la récupération des métriques Prometheus pour votre cluster. | Activez Prometheus sur votre cluster avec le service managé Azure Monitor pour Prometheus si vous n’avez pas encore d’environnement Prometheus. Utilisez Azure Managed Grafana pour analyser les données Prometheus collectées. Consultez Personnaliser la récupération des métriques Prometheus dans le service managé Azure Monitor pour Prometheus pour collecter des métriques supplémentaires au-delà de la configuration par défaut . |
Activez Container Insights pour la collecte de journaux et de données de performances à partir de votre cluster. | Container Insights collecte les journaux stdout/stderr, les métriques de performances et les événements Kubernetes à partir de chaque nœud de votre cluster. Il fournit des tableaux de bord et des rapports pour l’analyse de ces données, notamment la disponibilité de vos nœuds et d’autres composants. Utilisez Log Analytics pour identifier les erreurs de disponibilité dans vos journaux collectés. |
Créez des paramètres de diagnostic pour collecter les journaux du plan de contrôle pour les clusters AKS. | AKS implémente les journaux des plans de contrôle en tant que journaux de ressources dans Azure Monitor. Créer un paramètre de diagnostic pour envoyer ces journaux à votre espace de travail Log Analytics afin de pouvoir utiliser requêtes de journal pour identifier les erreurs et les problèmes affectant la disponibilité. |
Activez les alertes Prometheus recommandées. | Alertes dans Azure Monitor vous avertit de manière proactive lorsque des problèmes sont détectés. Commencez par un ensemble de règles d’alerte Prometheus recommandées qui détectent les problèmes de disponibilité et de performances les plus courants avec votre cluster. Ajoutez potentiellement des alertes de recherche de journaux à l’aide de données collectées par Container Insights. |
Vérifiez la disponibilité de l’espace de travail Log Analytics prenant en charge Container Insights. | Container Insights s’appuie sur un espace de travail Log Analytics. Consultez meilleures pratiques pour les journaux Azure Monitor pour obtenir des recommandations pour garantir la fiabilité de l’espace de travail. |