Fiabilité dans les machines virtuelles
Cet article contient des informations détaillées sur la résilience régionale de machine virtuelle avec zones de disponibilité et reprise d’activité entre régions et la continuité d’activité.
Prise en charge des zones de disponibilité
Les zones de disponibilité sont des groupes de centres de données physiquement séparés au sein de chaque région Azure. Lorsqu'une zone tombe en panne, les services peuvent basculer vers l'une des zones restantes.
Pour plus d’informations sur les zones de disponibilité dans Azure, consultez Que sont les zones de disponibilité ?.
Les machines virtuelles prennent en charge les zones de disponibilité avec trois zones de disponibilité par région Azure prise en charge et sont également redondantes interzones et zonales. Pour plus d’informations, consultez services Azure avec des zones de disponibilité. Le client est responsable de la configuration et de la migration de ses machines virtuelles pour la disponibilité.
Pour en savoir plus sur les options de préparation des zones de disponibilité, consultez :
- Voir Options de disponibilité pour les machines virtuelles
- Consultez Prise en charge des services de zone de disponibilité et région
- Migrer des machines virtuelles existantes vers des zones de disponibilité
Prérequis
Les références SKU de votre machine virtuelle doivent être disponibles dans les zones de votre région. Pour voir quelles régions prennent en charge les zones de disponibilité, consultez la liste des régions prises en charge.
Les références SKU de votre machine virtuelle doivent être disponibles dans les zones de votre région. Pour vérifier la disponibilité des références SKU de machine virtuelle, utilisez l’une des méthodes suivantes :
- Utilisez PowerShell pour vérifier la disponibilité des références SKU de machine virtuelle.
- Utilisez Azure CLI pour vérifier la disponibilité des références SKU de machine virtuelle.
- Accédez à Services Azure avec prise en charge des zones de disponibilité.
Améliorations du SLA
Étant donné que les zones de disponibilité sont physiquement distinctes et fournissent une source d’alimentation, un réseau et un refroidissement distincts, les contrats SLA (contrats de niveau de service) augmentent. Pour plus d’informations, consultez le SLA pour Virtual Machines.
Créer une ressource avec les zones de disponibilité activées
Commencez par créer une machine virtuelle avec une zone de disponibilité activée à partir des options de déploiement ci-dessous :
Prise en charge du basculement zonal
Vous pouvez configurer des machines virtuelles pour basculer vers une autre zone à l’aide du service Site Recovery. Pour plus d’informations, consultez Récupération de site.
Tolérance de panne
Les machines virtuelles peuvent basculer vers un autre serveur dans un cluster, avec redémarrage du système d’exploitation de la machine virtuelle sur le nouveau serveur. Vous devez vous référer au processus de basculement pour la reprise d’activité après sinistre, la collecte de machines virtuelles dans la planification de la reprise et l’exécution d’exercices de reprise d’activité pour garantir la réussite de votre solution de tolérance de panne.
Pour plus d’informations, consultez les processus de récupération de site.
Expérience en cas de panne de zone
À l’occasion d’une panne à l’échelle d’une zone, vous devez vous attendre à une brève dégradation des performances, jusqu’à ce que la capacité d’auto-réparation du service de machine virtuelle rééquilibre la capacité sous-jacente afin de s’adapter aux zones saines. L’auto-réparation ne dépend pas de la restauration de zone ; on s’attend à ce que l’état de l’auto-réparation du service géré par Microsoft compense une zone perdue, en se servant de la capacité des autres zones.
Vous devez également vous préparer à la possibilité qu’il y ait une panne d’une région entière. Si une région entière est confrontée à une interruption de service, les copies localement redondantes de vos données sont temporairement indisponibles. Si la géoréplication est activée, trois autres copies de vos tables et objets blob Stockage Azure sont stockées dans une autre région. En cas de panne régionale totale ou de sinistre rendant la région primaire irrécupérable, Azure remappe toutes les entrées DNS sur la région géorépliquée.
Préparation aux pannes de zone et récupération
Nous vous fournissons les conseils suivants pour les machines virtuelles Azure durant une interruption de service sur l’ensemble de la région où votre application Machine virtuelle Azure est déployée :
- Configurer Azure Site Recovery pour vos machines virtuelles
- Vérifiez l’état du tableau de bord Azure Service Health si Azure Site Recovery n’a pas été configuré
- Passer en revue le fonctionnement du service Sauvegarde Azure pour les machines virtuelles
- Consultez la matrice de prise en charge de la sauvegarde de machines virtuelles Azure
- Déterminer l’option et le scénario de restauration de machine virtuelle qui fonctionnent le mieux pour votre environnement
Conception à faible latence
Les options Inter-régions (région secondaire), Inter-abonnement (préversion) et Inter-zonal (préversion) sont des options disponibles à prendre en compte lors de la conception d’une solution de machine virtuelle à faible latence. Pour plus d’informations sur ces options, consultez les méthodes de restauration prises en charge.
Important
En refusant le déploiement prenant en charge la zone, vous renoncez à la protection contre l’isolation des erreurs sous-jacentes. L’utilisation de références SKU qui ne prennent pas en charge les zones de disponibilité ou la désactivation de la configuration des zones de disponibilité force la dépendance aux ressources qui n’obéissent pas au placement et à la séparation des zones (y compris les dépendances sous-jacentes de ces ressources). Ces ressources ne doivent pas survivre à des scénarios de zone descendante. Les solutions qui tirent parti de ces ressources doivent définir une stratégie de récupération d’urgence et configurer une récupération de la solution dans une autre région.
Techniques de déploiement sécurisées
Lorsque vous optez pour l’isolation des zones de disponibilité, vous devez utiliser des techniques de déploiement sécurisées pour le code d’application et pour les mises à niveau d’application. Outre la configuration d’Azure Site Recovery implémentez l’une des techniques de déploiement sécurisées suivantes pour les machines virtuelles :
- Jeux de mise à l’échelle de machine virtuelle
- Équilibrage de charge Azure
- Redondance de Stockage Azure
Comme Microsoft effectue régulièrement des mises à jour de maintenance planifiées, il peut y avoir de rares instances où ces mises à jour nécessitent un redémarrage de votre machine virtuelle pour appliquer les mises à jour requises à l’infrastructure sous-jacente. Pour plus d’informations, consultez Considérations relatives à la disponibilité lors de la maintenance planifiée.
Avant de mettre à niveau votre prochain ensemble de nœuds dans une autre zone, vous devez effectuer les tâches suivantes :
- Consultez le tableau de bord Azure Service Health pour connaître l’état du service de machines virtuelles pour vos régions attendues.
- Vérifiez que la réplication est activée sur vos machines virtuelles.
Migrer vers une prise en charge des zones de disponibilité
Pour savoir comment migrer une machine virtuelle vers la prise en charge des zones de disponibilité, consultez Migrer des machines virtuelles et des groupe de machines virtuelles identiques vers la prise en charge des zones de disponibilité.
- Déplacer une machine virtuelle vers un autre abonnement ou groupe de ressources
- Azure Resource Mover
- Déplacer des machines virtuelles Azure vers des zones de disponibilité
- Déplacer les ressources de configuration de maintenance de région
Reprise d’activité et continuité d’activité entre régions
La récupération d’urgence (DR) consiste à récupérer après des évènements à fort impact, comme des catastrophes naturelles ou des échecs de déploiements, qui entraînent un temps d’arrêt et une perte de données. Quelle qu’en soit la cause, la meilleure solution en cas de sinistre est d’avoir un plan de DR bien défini et testé, et une conception d’application qui prend activement en charge la DR. Avant de commencer à réfléchir à la création de votre plan de récupération d’urgence, consultez Suggestions pour la conception d’une stratégie de récupération d’urgence.
En ce qui concerne la récupération d’urgence (DR), Microsoft utilise le modèle de responsabilité partagée. Dans un modèle de responsabilité partagée, Microsoft garantit que l’infrastructure de référence et les services de plateforme sont disponibles. En même temps, de nombreux services Azure ne répliquent pas automatiquement les données ou reviennent d’une région défaillante pour effectuer une réplication croisée vers une autre région activée. Pour ces services, vous êtes en charge de la configuration d’un plan de récupération d’urgence qui fonctionne pour votre charge de travail. La plupart des services qui s’exécutent sur des offres PaaS (Platform as a Service) Azure fournissent des fonctionnalités et des conseils pour prendre en charge la récupération d’urgence et vous pouvez utiliser fonctionnalités spécifiques au service pour prendre en charge la récupération rapide pour vous aider à développer votre plan de récupération d’urgence.
Vous pouvez utiliser la restauration inter-région pour restaurer des machines virtuelles Azure via des régions jumelées. Avec la restauration inter-région, vous pouvez restaurer toutes les machines virtuelles Azure pour le point de récupération sélectionné si la sauvegarde est effectuée dans la région secondaire. Pour plus d’informations sur la restauration interrégion, reportez-vous à l’entrée de ligne de table interrégion dans nos options de restauration.
Récupération d’urgence dans la zone géographique multi-région
En cas d’interruption de service à l’échelle de la région, Microsoft travaille avec diligence pour restaurer le service de machine virtuelle. Toutefois, vous devez toujours vous appuyer sur d’autres stratégies de sauvegarde propres à l’application pour atteindre le plus haut niveau de disponibilité. Pour plus d’informations, consultez la section consacrée aux stratégies de données pour une récupération d’urgence.
Détection, notification et gestion des pannes
L’infrastructure matérielle ou physique de la machine virtuelle peut échouer de manière inattendue. Les défaillances inattendus comprennent les défaillances du réseau local, du disque local ou au niveau du rack. Quand une défaillance de ce type est détectée, la plateforme Azure migre (répare) automatiquement votre machine virtuelle vers une machine physique intègre se trouvant dans le même centre de données. Lors de la procédure de réparation, les machines virtuelles subissent des temps d’arrêt (redémarrage) et, dans certains cas, une perte du lecteur temporaire. Le système d’exploitation attaché et les disques de données sont toujours conservés.
Pour plus d’informations sur les interruptions de service de machine virtuelle, consultez les conseils de récupération d’urgence.
Configurer la reprise d’activité et la détection des pannes
Lorsque vous configurez la récupération d’urgence pour les machines virtuelles, comprenez ce que fournit Azure Site Recovery. Activez la récupération d’urgence pour les machines virtuelles avec les méthodes ci-dessous :
- Configurer la récupération d'urgence sur une région Azure secondaire pour une machine virtuelle Azure
- Créer un coffre Recovery Services
- Activer la récupération d'urgence pour les machines virtuelles Linux
- Activer la récupération d'urgence pour les machines virtuelles Windows
- Basculer des machines virtuelles Azure vers une autre région
- Basculer des machines virtuelles vers la région primaire
Récupération d’urgence dans une zone géographique à région unique
Avec la configuration de la reprise d’activité, les machines virtuelles Azure sont répliquées continuellement vers une autre région cible. Si une panne se produit, vous pouvez basculer les machines virtuelles vers la région secondaire et y accéder à partir de cette région.
Lorsque vous répliquez des machines virtuelles Azure à l'aide de Site Recovery, tous leurs disques sont répliqués en continu et de manière asynchrone dans la région cible. Les points de récupération sont créés toutes les quelques minutes, ce qui vous donne un objectif de point de récupération (RPO) de l’ordre de quelques minutes. Vous pouvez effectuer des exercices de reprise d’activité autant de fois que vous le souhaitez sans impacter l’application de production ou la réplication en cours. Pour plus d’informations, consultez Effectuer un exercice de reprise d’activité sur Azure.
Pour plus d’informations, consultez Composants architecturaux de machines virtuelles Azure et association de régions.
Capacité et résilience proactive de la récupération d’urgence
Microsoft et ses clients opèrent selon le modèle de responsabilité partagée. La responsabilité partagée signifie que dans le cas d’une reprise d’activité après sinistre activée par le client (services sous la responsabilité du client), vous devez traiter la reprise d’activité de chaque service qu’il déploie et contrôle. Pour garantir une reprise proactive, vous devez toujours prédéployer les régions secondaires, car, à défaut de préallocation, la capacité n’est pas garantie au moment de l’impact.
Pour le déploiement de machines virtuelles, vous pouvez utiliser le mode d’orchestration flexible sur Virtual Machine Scale Sets. Toutes les tailles de machine virtuelle peuvent être utilisées avec le mode d’orchestration flexible. Le mode d’orchestration flexible garantit également une haute disponibilité (jusqu’à 1000 machines virtuelles) en répartissant les machines virtuelles entre différents domaines d’erreur dans une région ou dans une zone de disponibilité.
Étapes suivantes
- Framework bien conçu pour les machines virtuelles
- Architecture pour la récupération d’urgence d’Azure vers Azure
- Performances réseau accélérées avec la récupération d’urgence de machines virtuelles Azure
- ExpressRoute avec la récupération d’urgence de machines virtuelles Azure
- Jeux de mise à l’échelle de machine virtuelle
- Fiabilité dans Azure