Comment se préparer à l’inattendu (avant un incident)

19 minutes

Pour assurer la préparation et réduire l’impact des incidents, il est essentiel de suivre les recommandations proactives décrites dans cette unité. Ces actions vous aideront à comprendre notre processus de communication sur les incidents, à localiser les informations pertinentes et à configurer les notifications pour recevoir des mises à jour opportunes. En outre, l’évaluation de la résilience de vos applications et l’implémentation des mesures recommandées contribueront à créer des charges de travail plus fiables, ce qui réduit l’impact potentiel d’un incident. Enfin, l’examen et l’application des meilleures pratiques en matière de sécurité renforceront votre environnement et atténueront les risques.

Action #1 : Familiarisez-vous avec Azure Service Health dans le portail Azure

Contrairement à notre page publique azure.status.microsoft, qui fournit des informations générales sur l’état des pannes uniquement, Azure Service Health offre des détails personnalisés adaptés à vos ressources spécifiques. Il vous aide à anticiper et à préparer la maintenance planifiée et d’autres modifications susceptibles d’affecter la disponibilité des ressources. Vous pouvez gérer les événements de service et prendre des mesures pour maintenir la continuité des activités de vos applications impactées. Il fournit des insights essentiels sur les vulnérabilités de la plateforme, les incidents de sécurité et les violations de confidentialité au niveau du service Azure, ce qui permet une action rapide pour protéger vos charges de travail Azure.

À présent, examinons certaines fonctionnalités clés disponibles dans Azure Service Health pour améliorer votre préparation aux incidents :

Volet Resource Health (nouvelle expérience couverte)

Situé dans la section Service Health du portail Azure, Azure Resource Health vous aide à diagnostiquer et à résoudre les problèmes de service qui affectent vos ressources Azure. Les ressources, telles que les machines virtuelles, les applications web ou les bases de données SQL, sont évaluées pour leur intégrité en fonction des signaux provenant de différents services Azure. Si une ressource est identifiée comme non saine, Resource Health effectue une analyse détaillée pour déterminer la cause racine du problème. Il fournit également des informations sur les actions entreprises par Microsoft pour résoudre les problèmes liés aux incidents et suggère des étapes à suivre pour résoudre le problème.

Volet Problèmes liés aux services (nouvelle expérience couverte)

Le volet Problèmes liés aux services affiche les incidents de service en cours qui peuvent avoir un impact sur vos ressources. Il vous permet de suivre le début d’un problème et d’identifier les services et les régions affectés. En examinant les mises à jour les plus récentes, vous pouvez obtenir des insights sur les efforts d’Azure pour résoudre l’incident.

Fonctionnalités clés du volet Problèmes liés aux services :

Insight en temps réel : Le tableau de bord des problèmes de service offre une visibilité en temps réel sur les incidents de service Azure affectant vos abonnements et vos locataires. Si vous êtes administrateur de locataire, vous pouvez voir des incidents actifs ou des avis pertinents pour votre ou vos abonnement(s) et votre ou vos locataire(s).
Évaluation de l’impact des ressources : L’onglet Ressource affectée dans la section des détails de l’incident indique quelles ressources sont confirmées ou potentiellement affectées. Le fait de cliquer sur les ressources fournit un accès direct au volet Resource Health.
Liens et explications téléchargeables : Générez un lien pour le problème afin de l’utiliser dans votre système de gestion des problèmes. Vous pouvez également télécharger des fichiers PDF et parfois CSV pour partager des explications complètes avec les parties prenantes qui n’ont pas accès au portail Azure. En outre, vous pouvez demander une révision post-incident (RPI) pour tous les problèmes qui ont affecté vos ressources, précédemment appelée Analyse de cause racine (ACR).

Volet Avis de sécurité

Le volet Avis de sécurité se concentre sur les informations urgentes relatives à la sécurité qui affectent l’intégrité de vos abonnements et de vos locataires. Il fournit des insights sur les vulnérabilités de la plateforme, les incidents de sécurité et les violations de la confidentialité.

Capture d’écran des avis de sécurité d’Azure Service Health.

Fonctionnalités clés du volet Avis de sécurité :

Insights de sécurité en temps réel : Bénéficiez d’une visibilité immédiate sur les incidents de sécurité Azure pertinents pour vos abonnements et vos locataires.

Évaluation de l’impact des ressources : L’onglet Ressource affectée dans la section des détails de l’incident met en évidence les ressources qui sont confirmées comme étant affectées.

Les utilisateurs autorisés avec les rôles suivants peuvent consulter les informations sur les ressources affectées par la sécurité :

Affichez les ressources au niveau de l’abonnement	Affichez les ressources au niveau du locataire
Propriétaire de l’abonnement	Administrateur de sécurité/Lecteur de sécurité
Administration des abonnements	Administrateur général/Administrateur locataire
Lecteur de sécurité Service Health	Lecteur de confidentialité Azure Service Health

En outre, vous pouvez télécharger des documents PDF explicatifs à partager avec les parties prenantes qui n’ont pas d’accès direct au portail Azure.

Les exemples suivants montrent un incident de sécurité avec des ressources affectées à la fois par l’abonnement et par l’étendue du locataire.

En plus de vous familiariser avec Azure Service Health, une autre étape cruciale consiste à configurer des alertes Service Health, ce qui vous permettra de recevoir des notifications en temps opportun et de vous tenir informé des incidents et des informations importantes susceptibles d’avoir un impact sur vos charges de travail. La section suivante abordera ce sujet en détail.

Action #2 : Configurez des alertes Service Health pour rester informé

Configurer des notifications d’alerte d’intégrité du service est essentiel et constitue l’appel à l’action le plus important pour une gestion proactive des incidents. Les alertes Service Health vous permettent de recevoir des notifications en temps opportun via différents canaux tels que les e-mails, les SMS, les webhooks, etc. Ces alertes fournissent des mises à jour sur les incidents de service, les activités de maintenance planifiées, les incidents de sécurité et d’autres informations critiques susceptibles d’avoir un impact sur vos charges de travail.

Vous pouvez configurer des alertes d’intégrité du service à partir de l’un des volets « événements actifs » dans le panneau Service Health du portail Azure, en cliquant sur Alertes d’intégrité à partir du volet Service Health ou en tirant parti d’Azure Resource Graph.

Ici, vous trouverez des exemples de requêtes Azure Resource Graph pour Azure Service Health.

Capture d’écran des avis d’Azure Service Health.

Service Health effectue le suivi de différents types d’événements d’intégrité susceptibles d’affecter vos ressources, notamment les problèmes de service, la maintenance planifiée, les avis d’intégrité et les avis de sécurité. Lors de la configuration des alertes d’intégrité du service, vous avez la possibilité de choisir comment et à qui ces alertes sont envoyées. Vous pouvez personnaliser les alertes en fonction de la classe de notification d’intégrité du service, des abonnements affectés, des services et des régions.

Classe de notifications Service Health

Type d’événement Service Health	Description
Problème de service	Problèmes dans les services Azure qui vous affectent dès maintenant, également appelés incidents de service.
Maintenance planifiée	La maintenance à venir qui peut affecter la disponibilité de vos services à l’avenir.
Avis d’intégrité	Les modifications apportées aux services Azure qui nécessitent votre attention. Par exemple, lorsque vous devez effectuer une action, lorsque les fonctionnalités Azure sont déconseillées, lorsque vous devez effectuer une mise à niveau ou lorsque vous dépassez un quota d’utilisation.
Avis de sécurité	Notifications liées à la sécurité qui traitent des vulnérabilités de plateforme et des violations de sécurité et de confidentialité au niveau de l’abonnement et du locataire, également appelées incidents de sécurité et/ou de confidentialité.

Nous savons que vous devez être avertis lorsque des problèmes affectent vos services, et les alertes d’intégrité du service vous permettent de choisir COMMENT et À QUI ces alertes sont envoyées. Les alertes peuvent être configurées en fonction de la classe de notification d’intégrité du service, des abonnements affectés, des services affectés et/ou des régions affectées. Vous pouvez configurer des alertes pour déclencher des e-mails, des SMS, des applications logiques, des fonctions et bien plus encore.

Lorsqu’une alerte est déclenchée, vous pouvez définir les actions à entreprendre à l’aide de groupes d’actions. Les groupes d’actions sont des regroupements de préférences de notification qui déterminent comment et à qui les alertes sont envoyées.

Liste complète des types de notification disponibles

Type de notification	Description	Champs
Envoyer un e-mail au rôle Azure Resource Manager	Envoyez un e-mail aux membres de l’abonnement, en fonction de leur rôle. Un e-mail de notification est envoyé uniquement à l’adresse e-mail principale configurée pour l’utilisateur Microsoft Entra. L’e-mail est envoyé uniquement aux membres utilisateurs de Microsoft Entra ayant le rôle sélectionné, et non aux groupes Microsoft Entra ou aux principaux services.	Entrez l’adresse e-mail principale configurée pour l’utilisateur Microsoft Entra. Consultez E-mail.
Courrier	Assurez-vous que votre filtrage d’e-mail et tous les services de prévention contre les programmes malveillants et le courrier indésirable sont correctement configurés. Les e-mails sont envoyés à partir des adresses e-mail suivantes : - azure-noreply@microsoft.com - azureemail-noreply@microsoft.com - alerts-noreply@mail.windowsazure.com	Entrez l’adresse e-mail à laquelle la notification doit être envoyée.
SMS	Les notifications par SMS prennent en charge la communication bidirectionnelle. Ce SMS contient les informations suivantes : - Le nom court du groupe d’actions auquel cette alerte a été envoyée - Le titre de l’alerte. Un utilisateur peut répondre à un SMS pour : - Se désabonner de toutes les alertes SMS pour tous les groupes d’actions ou un seul groupe d’actions. - Se réabonner aux alertes - Demander de l’aide. Pour plus d’informations sur les réponses aux SMS prises en charge, consultez Réponses aux SMS.	Entrez le Code pays et le Numéro de téléphone du destinataire des SMS. Si vous ne pouvez pas sélectionner le code de votre pays/région dans le Portail Azure, cela signifie que les SMS ne sont pas pris en charge pour votre pays/région. Si votre indicatif de pays/région n’est pas disponible, vous pouvez voter pour que votre pays/région soit ajouté sur Partagez vos idées. En attendant que votre pays soit pris en charge, une solution de contournement consiste à configurer le groupe d’actions de sorte qu’il appelle un webhook de fournisseur de SMS tiers qui prend en charge votre pays/région.
Notifications Push d’application Azure	Envoyez des notifications à Azure mobile app. Pour activer les notifications Push à destination d’Azure mobile app, fournissez des informations supplémentaires sur Azure mobile app. Consultez Azure mobile app.	Dans le champ Adresse e-mail du compte Azure, entrez l’adresse e-mail que vous utilisez comme ID de compte au moment de configurer Azure mobile app.
Voix	Notification vocale.	Entrez le Code pays et le Numéro de téléphone du destinataire de la notification. Si vous ne pouvez pas sélectionner le code de votre pays/région sur le portail Azure, cela signifie que les notifications vocales ne sont pas prises en charge pour votre pays/région. Si votre indicatif de pays/région n’est pas disponible, vous pouvez voter pour que votre pays/région soit ajouté sur Partagez vos idées. En attendant que votre pays soit pris en charge, une solution de contournement consiste à configurer le groupe d’actions de sorte qu’il appelle un webhook de fournisseur d’appels vocaux qui prend en charge votre pays/région.

Liste complète des actions que vous pouvez déclencher

Type action	Détails
Runbook Automation	Pour plus d’informations sur les limites au niveau des charges utiles de runbook Automation, consultez Limites d’Automation.
Hubs d'événements	Une action Event Hubs publie des notifications sur Event Hubs. Pour plus d’informations sur Event Hubs, consultez Azure Event Hubs : une plateforme de diffusion en continu Big Data et un service d’ingestion d’événements. Vous pouvez vous abonner au flux de notification d’alerte à partir de votre récepteur d’événements.
Fonctions	Appelle un point de terminaison de déclencheur HTTP existant dans des fonctions. Pour plus d’informations, consultez Azure Functions. Lorsque vous définissez l’action de la fonction, le point de terminaison du déclencheur HTTP de la fonction et la clé d’accès sont enregistrés dans la définition de l’action, par exemple `https://azfunctionurl.azurewebsites.net/api/httptrigger?code=<access_key>`. Si vous modifiez la clé d’accès de la fonction, vous devez supprimer et recréer l’action de la fonction dans le groupe d’actions. Votre point de terminaison doit prendre en charge la méthode HTTP POST. La fonction doit avoir accès au compte de stockage. Si elle n’y a pas accès, les clés ne sont pas disponibles et l’URI de la fonction n’est pas accessible. En savoir plus sur la restauration de l’accès au compte de stockage.
ITSM	Une action ITSM requiert une connexion ITSM. Pour savoir comment créer une connexion ITSM, consultez Intégration ITSM.
Logic Apps	Vous pouvez utiliser Azure Logic Apps pour créer et personnaliser des workflows d’intégration et personnaliser vos notifications d’alerte.
Webhook sécurisé	Lorsque vous utilisez une action de webhook sécurisé, vous devez utiliser Microsoft Entra ID pour sécuriser la connexion entre votre groupe d’actions et votre point de terminaison, qui est une API web protégée. Consultez Configurer l’authentification pour un webhook sécurisé. Un webhook sécurisé ne prend pas en charge l’authentification de base. Si vous utilisez l’authentification de base, utilisez l’action Webhook.
webhook	Si vous utilisez l’action webhook, votre point de terminaison de webhook cible doit être en mesure de traiter les différentes charges utiles JSON émises par différentes sources d’alerte. Vous ne pouvez pas passer des certificats de sécurité via une action de webhook. Pour utiliser l’authentification de base, vous devez transmettre vos informations d’identification par l’URI. Si le point de terminaison du webhook attend un schéma spécifique, par exemple le schéma Microsoft Teams, utilisez le type d’action Logic Apps pour manipuler le schéma d’alerte de sorte qu’il réponde aux attentes du webhook cible. Pour plus d’informations sur les règles utilisées pour tenter de nouveau des actions de webhook, consultez Webhook.

N’oubliez pas que la plupart des incidents de service ont un impact sur quelques abonnements. Ils ne s’afficheront donc pas sur des emplacements comme status.azure.com. Les alertes d’intégrité du service peuvent être configurées à partir du portail. Si vous souhaitez automatiser la création, elles peuvent également être configurées via PowerShell ou des modèles ARM.

En configurant efficacement les alertes et les groupes d’action Service Health, vous pouvez vous assurer de recevoir des notifications en temps opportun et de prendre les mesures appropriées pour atténuer l’impact des incidents sur vos ressources Azure.

Remarque

Vous souhaitez obtenir de l’aide pour savoir ce qu’il faut surveiller et quelles alertes configurer ? La solution « Alertes de référence Azure Monitor » est la solution qu’il vous faut. Elle fournit des conseils et un code complets pour l’implémentation d’une base d’alertes de plateforme ainsi que d’alertes d’intégrité du service via des stratégies et des initiatives dans les environnements Azure, avec des options pour le déploiement automatisé ou manuel. La solution comprend des stratégies prédéfinies afin de créer automatiquement des alertes pour tous les types d’événements d’intégrité de service (problème de service, maintenance planifiée, avis d’intégrité et avis de sécurité), les groupes d’action et les règles de traitement des alertes pour divers types de ressource Azure. Bien que l’accent soit mis sur la surveillance des environnements architecturés en zones d’atterrissage Azure (ALZ), cette solution offre également des conseils aux clients brownfield qui ne sont pas actuellement alignés sur l’architecture ALZ brownfield.

Action #3 : Tenez compte des alertes Resource Health ou Scheduled Events pour vous informer des problèmes spécifiques aux ressources

Une fois que vous avez configuré des alertes d’intégrité du service, envisagez également d’adopter des alertes d’intégrité des ressources. Les alertes Azure Resource Health peuvent vous signaler en temps quasi réel toute modification de l’état d’intégrité de ces ressources, quelle qu’en soit la raison.

La principale distinction entre les alertes d’« intégrité du service » et les alertes d’« intégrité des ressources » est que les premières sont déclenchées lors d’un problème connu de la plateforme, tel qu’une panne en cours (incident de service) qui est en cours d’examen par Microsoft. En revanche, les secondes sont déclenchées lorsqu’une ressource spécifique est considérée comme non saine, quelle qu’en soit la cause sous-jacente.

Vous pouvez configurer des alertes d’intégrité des ressources à partir du volet Resource Health dans le panneau Service Health du portail Azure.

Capture d’écran de l’intégrité de la ressource Azure Service Health.

Vous pouvez également créer des alertes d’intégrité des ressources de façon programmatique à l’aide de modèles Azure Resource Manager et d’Azure PowerShell. La création d’alertes d’intégrité des ressources de façon programmatique vous permet de créer et de personnaliser des alertes en bloc.

Événements planifiés pour les machines virtuelles, évitant tout impact

Les événements planifiés constituent un autre excellent outil. Alors que les deux types d’« alertes » mentionnés ci-dessus notifient des personnes ou des systèmes, les événements planifiés notifient les ressources elles-mêmes. Cela peut donner à votre application le temps de préparer la maintenance des machines virtuelles ou l’un de nos événements de réparation de service automatisé. Les événements planifiés signalent l’imminence d’un événement de maintenance (par exemple, un redémarrage imminent) de sorte que votre application puisse le savoir et agir pour limiter les perturbations, par exemple, en exécutant une automatisation pour se retirer du pool ou pour se dégrader de manière progressive. Les événements planifiés sont disponibles pour tous les types de machines virtuelles Azure, notamment PaaS et IaaS sur Windows et Linux.

Remarque

Bien que les alertes d’intégrité des ressources et les événements planifiés soient des outils utiles, l’appel à l’action le plus important consiste à configurer des alertes d’intégrité du service. Cela est essentiel pour vous assurer que vous comprenez ce qui se passe avec vos ressources, ce que nous faisons à ce sujet et quand le problème est atténué.

Action #4 : Augmentez la sécurité de votre investissement pour protéger votre environnement

Assurez-vous de la protection de vos données, applications et autres ressources dans Azure en examinant et en implémentant les Meilleures pratiques en matière de sécurité opérationnelle. Ces meilleures pratiques sont dérivées des connaissances et de l’expérience collectives de ceux qui travaillent avec les capacités et les fonctionnalités actuelles de la plateforme Azure. L’article est régulièrement mis à jour pour refléter l’évolution des opinions et des technologies.

En guise de point de départ, tenez compte de ces principales recommandations pour l’implémentation :

Exigez une vérification en deux étapes pour tous vos utilisateurs. Cela inclut les administrateurs et les autres membres de votre organisation (par exemple, les responsables financiers) dont la compromission de leur compte pourrait avoir un impact significatif si leur compte est compromis. Appliquez l’authentification multifacteur pour atténuer les préoccupations de cette exposition.
Configurez et activez les stratégies de risque sur votre locataire afin d’être alerté si « quelqu’un » se trouve dans votre environnement. Cela créera une alerte pour les événements à risque tels que l’utilisation d’adresses IP anonymes, les déplacements atypiques, les propriétés de connexion inconnues et déclenchera d’autres efforts de correction tels que l’authentification multifacteur, la réinitialisation des mots de passe, etc. garantissant que les clients restent en sécurité.
Contrôlez le déplacement des abonnements depuis et vers des répertoires en tant que mesure proactive pour être préparé et conscient de la présence de « quelqu’un » dans votre environnement. Cela garantit à votre organisation une visibilité complète des abonnements utilisés et empêche le déplacement des abonnements pouvant se rendre dans un répertoire inconnu.
Permutez régulièrement les informations d’identification de tous les administrateurs d’abonnements et généraux afin de vous protéger contre les violations de sécurité potentielles, les comptes compromis ou l’utilisation non autorisée d’autorisations privilégiées. La rotation régulière des informations d’identification ajoute une couche de sécurité supplémentaire à votre environnement et permet de maintenir l’intégrité et la confidentialité de vos données et ressources.
Passez en revue et mettez régulièrement à jour tous les e-mails et numéros de téléphone des utilisateurs administrateurs généraux au sein de votre locataire

Action #5 : Augmentez la résilience de vos charges de travail Azure clés pour éviter ou réduire l’impact

Pour garantir la fiabilité de vos charges de travail, il est essentiel de les évaluer à l’aide des principes de Microsoft Azure Well-Architected Framework (WAF) via la révision Microsoft Azure Well-Architected. Le WAF fournit également des recommandations pour les tests de résilience, notamment l’adoption d’une méthodologie d’ingénierie de chaos.

Les applications doivent subir des tests pour garantir la disponibilité et la résilience. La disponibilité fait référence à la durée pendant laquelle une application fonctionne sans interruption significative, tandis que la résilience mesure la rapidité de récupération d’une application en cas de défaillance.

Pour compléter votre travail avec le WAF, envisagez d’implémenter les recommandations principales suivantes et d’exploiter les outils fournis pour vous aider à vérifier et à générer la résilience dans vos applications :

Utilisez le Classeur de fiabilité intégré dans le portail Azure sous le panneau Azure Advisor pour évaluer la situation de vos applications en matière de fiabilité, identifier les risques potentiels et planifier et implémenter des améliorations.
Améliorez la continuité d’activité et la reprise d’activité (BCDR) en déployant vos charges de travail et vos ressources dans plusieurs régions. Reportez-vous à la liste complète des paires de régions Azure pour obtenir des options de déploiement inter-régions optimales.
Optimisez la disponibilité au sein d’une région en distribuant les déploiements de charges de travail/de ressources entre les Zones de disponibilité.
Envisagez d’utiliser des tailles de machines virtuelles isolées dans Azure pour vos charges de travail vitales pour l’entreprise qui nécessitent un niveau élevé d’isolation. Ces tailles garantissent que votre machine virtuelle est dédiée à un type de matériel spécifique et fonctionne indépendamment. Pour plus d’informations, reportez-vous à la page suivante : Isolation des machines virtuelles dans Azure - Machines virtuelles Azure | Microsoft Learn.
Envisagez d’utiliser les Configurations de maintenance pour mieux contrôler et gérer les mises à jour de vos machines virtuelles Azure. Cette fonctionnalité vous permet de planifier et de gérer les mises à jour, ce qui garantit une interruption minimale des charges de travail sensibles qui ne peuvent pas tolérer de temps d’arrêt pendant les activités de maintenance.
Améliorez la redondance en implémentant la redondance inter ou intra-région. Reportez-vous à l’exemple d’une application web redondante interzone à haute disponibilité pour obtenir des conseils.
Améliorez la résilience de vos applications en utilisant Azure Chaos Studio. Avec cet outil, vous pouvez introduire délibérément des erreurs contrôlées dans vos applications Azure, ce qui vous permet d’évaluer leur résilience et d’observer comment elles réagissent à diverses perturbations telles que la latence du réseau, les pannes de stockage, les secrets arrivant à expiration et les défaillances du centre de données.
Utilisez le classeur Service Retirement disponible dans le portail Azure sous le panneau Azure Advisor. Cet outil intégré vous aide à rester informé des retraits de service susceptibles d’avoir un impact sur vos charges de travail critiques, ce qui vous permet de planifier et d’exécuter efficacement les migrations nécessaires.

Remarque

Les clients qui ont souscrit un contrat de support Premier/Unified Support peuvent faire appel à l’équipe Customer Success pour élaborer une stratégie et implémenter une évaluation du Well-Architected Framework (WAF).

Comment se préparer à l’inattendu (avant un incident)

Pour rester informé, atténuer l’impact et protéger votre investissement, nous vous recommandons les cinq actions suivantes :

Action #1 : Familiarisez-vous avec Azure Service Health dans le portail Azure

Volet Resource Health (nouvelle expérience couverte)

Volet Problèmes liés aux services (nouvelle expérience couverte)

Volet Avis de sécurité

Action #2 : Configurez des alertes Service Health pour rester informé

Classe de notifications Service Health

Liste complète des types de notification disponibles

Liste complète des actions que vous pouvez déclencher

Action #3 : Tenez compte des alertes Resource Health ou Scheduled Events pour vous informer des problèmes spécifiques aux ressources

Événements planifiés pour les machines virtuelles, évitant tout impact

Action #4 : Augmentez la sécurité de votre investissement pour protéger votre environnement

Action #5 : Augmentez la résilience de vos charges de travail Azure clés pour éviter ou réduire l’impact

Commentaires