Partager via


Préparation aux incidents Microsoft Azure - Unifié

Lorsqu’un incident Azure est déclaré, nous communiquons les informations les plus récentes aux abonnements ou clients concernés via le panneau Problèmes liés au service dans Azure Service Health (dans le portail Azure).

Avant un incident

Pour vous préparer au mieux et protéger votre organisation, il est recommandé d’effectuer les étapes suivantes :

Soyez alerté et restez informé des incidents affectant vos services Azure.

  1. Familiarisez-vous avec Azure Service Health dans le portail Azure, l’emplacement unique où vous recevez toutes les mises à jour.

  2. Configurez les alertes Service Health et soyez averti de tout problème par e-mail, SMS, Webhook, etc. au niveau de l’abonnement, par service(s) et/ou par région(s).

    • Le type de notification Problème lié au service avertit votre organisation que vos ressources sont affectées par des incidents de service.

    • Le type de notification Avis de sécurité avertit votre organisation que vos services sont affectés par un incident de sécurité ou un incident de confidentialité.

    Voici quelques recommandations de base relatives à la configuration des alertes :

    • Pour les types Problèmes de service, maintenance planifiée et avis d’intégrité :

      • Vos charges de travail critiques : configurez des alertes pour vos abonnements services qui alimentent vos charges de travail critiques.
      • Configurer des alertes pour les services de base dans la pile Azure :
        • Service « Infrastructure réseau » : il s’agit de la couche de base de la pile Azure sur laquelle reposent tous les types d’applications et de charges de travail, d’IaaS à SaaS.
        • Service « Portail Microsoft Azure » : service de base utilisé pour gérer les ressources Azure. Sa polyvalence le positionne comme un service qui répond à une grande variété de scénarios, offrant des expériences de synthèse d’impact qui seront communiquées dans le cadre de ce service.
    • Pour le type Avis de sécurité :

      • Tous les abonnements et services Azure : les acteurs malveillants ciblent généralement les ressources moins utilisées. Il est donc important que ce type d’alerte couvre toutes les ressources Azure.

    En outre, la solution Alertes de base Azure Monitor fournit des conseils et du code complets pour l’implémentation d’une base de référence d’alertes de plateforme, ainsi que d’alertes d’intégrité de service via des stratégies et des initiatives dans des environnements Azure, avec des options de déploiement automatisé ou manuel.

  3. Assurez-vous que les rôles suivants disposent des bonnes informations de contact et qu’ils sont régulièrement vérifiés pour rester à jour. Pour plus d’informations, consultez l’article Rester informé des problèmes de sécurité liés à Azure - Azure Service Health | Microsoft Learn)

  4. Configurez des alertes d’intégrité ou des événements planifiés pour que vos utilisateurs et systèmes restent informés des problèmes liés aux ressources et des événements de maintenance à venir.

Pour comprendre les principes de communication d’Azure, consultez l’article Amélioration de l’expérience d’interruption : automatisation, communication et transparence| Blog et Mises à jour Azure | Microsoft Azure.

Augmentez votre état de sécurité et de résilience afin d’éviter ou de réduire l’impact des incidents

  1. Prenez connaissance et implémentez les Bonnes pratiques en matière de sécurité opérationnelle pour la protection de vos données, applications et autres ressources, notamment :

    • Instaurez l’authentification multifacteur pour atténuer les problèmes liés à l’exposition.

    • Configurez des alertes pour les utilisateurs à haut risque. Configurez l’accès conditionnel pour vous assurer que vous êtes averti lorsqu’un « utilisateur à risque » est présent dans votre environnement.

    • Contrôler le déplacement des abonnements de/vers les répertoires. À des fins de gouvernance, les administrateurs généraux peuvent autoriser ou interdire aux utilisateurs d’annuaires de modifier les annuaires inconnus de leur organisation. Cela garantit que votre organisation dispose d’une visibilité complète des abonnements utilisés dans les annuaires de votre organisation et empêche le déplacement des abonnements vers un annuaire inconnu.

  2. Optimisez la fiabilité des charges de travail critiques, la sécurité et plus encore à l’aide d’Azure Well-Architected Framework (WAF) et de la Révision. Envisagez également ces actions complémentaires au WAF.

    • Tirez parti des ressources consacrées à la Fiabilité du portail Azure, sous le panneau Azure Advisor, pour examiner le niveau de fiabilité de vos applications, évaluer les risques et planifier les améliorations.

    • Développez les déploiements de charges de travail entre les régions pour la continuité d’activité et reprise d’activité (BCDR). Utilisez la liste complète publiée des paires de régions Azure.

    • Développez les déploiements de charge de travail au sein d’une région à travers les Zones de disponibilité.

    • Envisagez l’Isolation des machines virtuelles dans Azure - Machines virtuelles Azure | Microsoft Learn pour les charges de travail critiques pour l’entreprise.

    • Envisagez les Configurations de maintenance pour contrôler et gérer les mises à jour de nombreuses machines virtuelles Azure

    • Utilisez Azure Chaos Studio pour évaluer la résilience de vos applications Azure. Soumettez vos applications Azure à des erreurs contrôlées, réelles ou simulées, pour observer la résilience des applications et la réponse aux interruptions telles que la latence du réseau, la panne de stockage, l’expiration des secrets et la panne du centre de données.

    • Utilisez le Classeur de mise hors service, qui est intégré au portail Azure sous le panneau Azure Advisor, comme vue centralisée unique au niveau des ressources des mises hors service. Il vous aide à évaluer l’impact du retrait de services et de fonctionnalités, ainsi qu’à évaluer les options de migration et à préparer celle-ci en fonction du retrait.

Suivez le Blog sur l’amélioration de la fiabilité d’Azure pour rester informé des efforts d’Azure en matière de résilience continue.

Pendant un incident

Lorsque vos abonnements clés sont affectés par un incident, il est important que vous sachiez où et comment trouver les informations pertinentes autour de cet incident :

  1. Consultez les alertes Azure Service Health dans le portail Azure pour obtenir les dernières informations sur l’incident de la part de nos ingénieurs.

    • Il est important de noter que les contacts dotés d’un rôle spécifique (mentionnés dans la section « avant un incident » : administrateur/propriétaire de l’abonnement, contact technique/confidentialité, administrateur client) peuvent également être avertis par e-mail lors des incidents de sécurité ou de confidentialité.
  2. En cas de problèmes d’accès au portail, consultez la page publique Statut Azure à l’adresse azure.status.microsoft, qui fait office de page de secours.

  3. En cas de problème avec la page d’état, consultez le compte @AzureSupport sur « X » (ex-Twitter) pour obtenir les dernières informations.

Pourquoi utiliser Service Health au lieu de la page de statut publique ?

De nombreux clients visitent nos pages de statut accessibles publiquement (comme azure.status. microsoft) dès les premiers signes de problèmes potentiels, pour voir s’il existe des problèmes connus avec nos services cloud. Ces pages ne répertorient que les problèmes de grande ampleur qui répondent à certains critères, et non les incidents de moindre importance qui ont un impact sur un nombre limité de clients.

Azure Service Health (dans le Portail Azure) connait les abonnements et clients que vous gérez. Il affiche donc une vue beaucoup plus précise des problèmes connus ayant un impact sur votre panne. Il vous permet également de configurer des alertes afin que vous puissiez être averti automatiquement.

Quand ouvrir un cas de support ?

Si l’incident de service est déjà répertorié dans Service Health, les dernières informations y sont fournies et il n’est pas nécessaire d’ouvrir une demande de support. Si vous pensez être affecté par un incident de service, mais que le problème n’est pas répertorié sur la page Service Health, ouvrez une demande de support.

Si vous avez des questions non couvertes par les documents sur les problèmes de sécurité, ouvrez une demande de support en indiquant l’ID de suivi.

Après un incident

  1. Lisez l’examen post-incidents (PIR) dans le volet Historique d’intégrité d’Azure Service Health (ou via les alertes Service Health configurées par le client) pour comprendre ce que nous avons appris.

  2. Pour les incidents majeurs qui répondent à nos critères de page d’état publics, rejoignez un stream en direct Azure Incident Retrospective pour obtenir des réponses à toutes les questions ou regardez l’enregistrement.

  3. Si vous pensez pouvoir bénéficier d’un crédit SLA, créez une demande de support avec le type de problème « Demande de remboursement » et incluez l’ID de suivi de l’incident.