Fiabilité dans Microsoft Community Training
Microsoft Community Training est une solution cloud basée sur Azure qui peut fournir à grande échelle des programmes de formation complets, de grande qualité et très efficaces. Avec Community Training, les organisations de toutes tailles et de tous types peuvent exécuter des programmes de formation à grande échelle pour leurs communautés internes et externes. Les communautés peuvent comprendre des travailleurs de première ligne, des effectifs élargis, un écosystème de partenaires, un réseau de bénévoles et des bénéficiaires de programmes.
Cet article décrit la prise en charge de la fiabilité dans Community Training et couvre la résilience régionale avec zones de disponibilité et récupération d'urgence et continuité d’activité. Pour obtenir une vue d’ensemble plus détaillée d’un principe de fiabilité dans Azure, consultez fiabilité Azure.
Prise en charge des zones de disponibilité
Les zones de disponibilité sont des groupes de centres de données physiquement séparés au sein de chaque région Azure. Lorsqu'une zone tombe en panne, les services peuvent basculer vers l'une des zones restantes.
Pour plus d’informations sur les zones de disponibilité dans Azure, consultez Que sont les zones de disponibilité ?.
Community Training utilise des zones de disponibilité Azure pour fournir une haute disponibilité et une tolérance de panne dans une région Azure. La formation communautaire offre un soutien à la zone de disponibilité du plan de contrôle et du plan de données :
Le plan de contrôle est redondant interzone dans les régions primaires de disponibilité.
Le plan de données peut être zonal ou redondant interzone, selon ce que vous choisissez pour vos besoins. Cependant, il est fortement recommandé d'opter pour un déploiement redondant par zone afin d'éviter les pertes de données et de maintenir la disponibilité du service en cas d'interruption d'une zone.
Prérequis
Les zones de disponibilité sont prises en charge pour les SKU Community Training suivants :
- Standard (échelle inférieure des utilisateurs)
- Premium (échelle élevée des utilisateurs)
La formation communautaire n’est prise en charge que dans les régions jumelées. Chaque région secondaire est déployée selon une configuration zonale. Le tableau suivant présente toutes les régions qui prennent en charge les zones de disponibilité pour la formation communautaire, ainsi que la région à laquelle elles sont rattachées.
Région primaire | Région jumelée |
---|---|
RoyaumeUniSud | UKWest |
AustralieEst | AustralieSud-Est |
USAEst | WestUS |
USAEst2 | CentralUS |
NorthEurope | WestEurope |
WestUS3 | USAEst |
SwedenCentral | SuèdeSud |
Prise en charge du basculement zonal
Community Training utilise de nombreux services Azure dépendants, tels que App service et Azure SQL. Lorsque vous choisissez un déploiement redondant par zone, Community Training crée également des offres redondantes par zone de ces ressources de service Azure sous-jacentes. Si une zone tombe en panne, toutes les ressources, y compris les ressources dépendantes, basculent vers l'une des zones saines.
Créer une ressource avec la zone de disponibilité activée
Community Training assure la configuration des zones de disponibilité uniquement au moment de la création de l'instance. Si vous souhaitez modifier la configuration de votre zone de disponibilité après la création de l'instance, vous devrez créer une nouvelle instance.
Expérience en cas de panne de zone
Instances zonales. Lors d'une panne à l'échelle de la zone, la formation communautaire peut subir une interruption totale ou partielle du service. L’étendue de la disponibilité dépend de divers facteurs, par exemple si l’ensemble du centre de données est hors service ou si un service de dépendance spécifique n’est plus disponible dans cette zone.
Redondance interzone. Lors d’une panne à l’échelle de la zone, vous ne devriez pas subir d’impact sur les ressources provisionnées. Toutefois, vous devez vous préparer à une brève interruption de la communication avec ces ressources. Dans une situation d’interruption de zone, les clients reçoivent généralement des codes d’erreur 409, ainsi que la logique de nouvelle tentative tente de rétablir les connexions à intervalles appropriés. Les nouvelles requêtes sont dirigées vers des nœuds sains sans impact sur l’utilisateur. Pendant les pannes à l’échelle de la zone, les utilisateurs sont en mesure de créer de nouvelles ressources et de mettre à l’échelle les ressources existantes.
Récupération d'urgence et continuité d’activité
La récupération d’urgence (DR) consiste à récupérer après des évènements à fort impact, comme des catastrophes naturelles ou des échecs de déploiements, qui entraînent un temps d’arrêt et une perte de données. Quelle qu’en soit la cause, la meilleure solution en cas de sinistre est d’avoir un plan de DR bien défini et testé, et une conception d’application qui prend activement en charge la DR. Avant de commencer à réfléchir à la création de votre plan de récupération d’urgence, consultez Suggestions pour la conception d’une stratégie de récupération d’urgence.
En ce qui concerne la récupération d’urgence (DR), Microsoft utilise le modèle de responsabilité partagée. Dans un modèle de responsabilité partagée, Microsoft garantit que l’infrastructure de référence et les services de plateforme sont disponibles. En même temps, de nombreux services Azure ne répliquent pas automatiquement les données ou reviennent d’une région défaillante pour effectuer une réplication croisée vers une autre région activée. Pour ces services, vous êtes en charge de la configuration d’un plan de récupération d’urgence qui fonctionne pour votre charge de travail. La plupart des services qui s’exécutent sur des offres PaaS (Platform as a Service) Azure fournissent des fonctionnalités et des conseils pour prendre en charge la récupération d’urgence et vous pouvez utiliser fonctionnalités spécifiques au service pour prendre en charge la récupération rapide pour vous aider à développer votre plan de récupération d’urgence.
L'équipe de Microsoft Community Training gère l'ensemble de la procédure de reprise après sinistre pour Community Training. La récupération d’urgence n’est pas active ni active-passive, mais est plutôt basée sur la récupération à partir de la sauvegarde disponible la plus récente des services Azure. L’équipe Community Training crée manuellement toutes les ressources dans la région jumelée à partir de sauvegardes de données.
Remarque
La récupération d'urgence de Community Training n’est prise en charge que dans les régions jumelées.
Récupération d’urgence dans la zone géographique multi-région
Dans une catastrophe régionale, le plan de contrôle est basculé manuellement vers la région jumelée. Il faut s’attendre à une certaine dégradation du service dans le temps avant que le basculement ne soit terminé. Une fois le basculement effectué, seules les opérations en lecture seule sont prises en charge jusqu’à ce que la région d’urgence soit de nouveau en ligne. Le service est automatiquement rétabli dans la région d’origine une fois qu’il est de nouveau en ligne et toutes les opérations reprennent. L’objectif de point de récupération (RPO) devrait être de 10 minutes ; l’objectif de temps de récupération (RTO), de 24 heures.
Pour le plan de données, Community Training offre la récupération d’urgence managée par Microsoft. Pour utiliser la récupération d’urgence managée, vous devez activer la récupération d’urgence lors de la création d’une instance Community Training dans Azure. Une fois que vous avez activé la récupération d’urgence, Microsoft maintient la sauvegarde du stockage et de la base de données dans la région jumelée. L’objectif de point de récupération (RPO) devrait être de 12 heures ; l’objectif de temps de récupération (RTO), de 48 heures.
Remarque
Le RTO dépend de la taille de la base de données et du stockage, de la latence entre la région jumelée. Capacité de la base de données ou de la machine virtuelle de stockage (SKU). Le RPO dépend des ressources Azure sous-jacentes, comme Azure SQL et stockage Azure. Pour plus d’informations sur le RTO et le RPO, consultez Vue d’ensemble de la récupération d'urgence.
Détection, notification et gestion des pannes
Lorsqu'un contrôle de santé de Community Training détecte une panne de n'importe quel service, et dans n'importe quelle région, Microsoft vous demande votre accord pour le basculement vers la région jumelée. Microsoft vous informe des fonctionnalités disponibles au cours de la procédure de récupération d’urgence. Une fois que Microsoft a reçu votre accord, l'équipe de formation communautaire peut lancer la procédure de récupération d'urgence.
Important
Les apprenants ne pourront pas utiliser les fonctions audio/vidéo tant que la région primaire ne sera pas opérationnelle. Il est recommandé que vous évitiez les opérations de chargement multimédia jusqu’à ce que le site principal soit opérationnel.
Capacité et résilience proactive de la récupération d’urgence
Microsoft et ses clients opèrent selon le modèle de responsabilité partagée. Une fois qu’une région est en panne, non seulement l’instance Community Training est migrée vers la région jumelée, mais également toutes les charges de travail produit et client sont également migrées vers une région jumelée. Cette procédure peut entraîner une pénurie de ressources dans la région ou le centre de données jumelé. Par conséquent, la disponibilité de la récupération d’urgence dépend de la capacité disponible des ressources Azure sous-jacentes.