Comprendre la résilience dans Microsoft 365
La résilience est un autre principe de conception essentiel pour l’architecture et la conception de service de Microsoft 365. Microsoft conçoit et crée nos services cloud pour optimiser la fiabilité et minimiser les effets négatifs sur les clients face aux pannes et les défis liés aux opérations normales. Plutôt que de reposer sur des stratégies de résilience classiques impliquant une infrastructure physique complexe, Microsoft crée une redondance directement dans les services en ligne. Nous combinons une infrastructure redondante avec des logiciels intelligents pour optimiser la résilience des données, éviter les interruptions de service et respecter notre contrat de niveau de service (SLA) de 99,9 % de disponibilité.
Résilience des services
La stratégie de résilience de Microsoft 365 hiérarchise la résilience des logiciels. Cela signifie que nous nous concentrons sur le renforcement de la résilience dans la conception de nos services, en nous protégeant contre les interruptions de service indépendamment des défaillances du matériel sous-jacent. La résilience du service permet à nos services de récupérer automatiquement à partir de plusieurs types de pannes et de défaillances sans impact sur la disponibilité du service.
Les services Microsoft 365 implémentent un certain nombre de principes de résilience, notamment :
- Conception de service active/active : dans la mesure du possible, nous sommes assurés que nos services soient conçus et déployés avec une résilience active/active. Cela signifie qu'en cas de défaillance d'un composant essentiel du service, un composant identique est disponible pour prendre le relais sans perte de disponibilité.
- Isolation des pannes : l’isolation des pannes renforce la résilience du service en empêchant les erreurs dans un composant de provoquer l’échec d’autres composants. Microsoft 365 s'efforce en permanence de réduire la taille des zones d'erreur dans nos services afin d'éviter que les défaillances ne se propagent et n'affectent d'autres composants du système. Par exemple, les groupes de disponibilité des bases de données Exchange Online limitent l’impact des défaillances au sein du service sur des groupes de disponibilité spécifiques.
- Surveillance et réparation spontanée : les services Microsoft 365 utilisent divers mécanismes automatisés qui contrôlent en permanence l’état d’intégrité de nos services et acheminent le trafic vers des clusters de service optimaux. Bon nombre de nos services incluent des mécanismes de réparation spontanée lorsqu’un problème est détecté. Par exemple, Exchange Online restaure automatiquement les bases de données de boîtes aux lettres s’il détecte une défaillance de disque qui a une incidence sur un groupe de disponibilité.
Résilience des données
La résilience des données complète la résilience du service en protégeant l’intégrité et la disponibilité des données dans les services Microsoft 365. La résilience des données Microsoft 365 vise à garantir que les données critiques des clients restent disponibles et non modifiées en cas de défaillances et de pannes inattendues. Pour y parvenir, les services Microsoft 365 implémentent les principes de résilience des données suivants :
- Sensibilité des données : nos services sont conçus pour protéger les données client sensibles. Pour ce faire, nous classons les données traitées par nos systèmes comme sensibles ou non sensibles. Les données non sensibles, telles que la lecture d’un message, peuvent être supprimées dans de rares scénarios d’échec. Les données sensible, telles que les données client, sont protégées contre les pertes en cas de panne.
- Redondance des données : nos services utilisent la redondance de stockage local et la redondance géographique pour répliquer des copies de données client dans différentes zones de défaillance. Si des données sont endommagées ou perdues dans une zone de défaillance, elles peuvent être accessibles dans une autre zone de défaillance sans perte de disponibilité.
- Surveillance granulaire et récupération automatisée : nos systèmes surveille l’intégrité des données client et restaurent automatiquement les données endommagées. Par exemple, Exchange Online surveille les données endommagées à plusieurs niveaux et restaure automatiquement les bases de données ou les boîtes aux lettres qui sont endommagées.
- Protection contre les pertes accidentelles : la plupart des pertes de données liées aux actions des clients. Microsoft 365 offre aux clients des outils permettant de récupérer des données supprimées ou modifiées accidentellement dans Exchange Online et SharePoint Online.
Résilience réseau
Microsoft détient et gère l’un des grands réseaux principaux au monde, connectant des centaines de centres de données dans 54 régions du globe. Notre réseau est pris en charge par des centaines de milliers de kilomètres de fibre privée pour offrir une disponibilité quasi parfaite, une grande capacité et une flexibilité de réseau dans le monde entier.
Notre réseau de centres de données Microsoft est conçu dans un souci de proximité avec nos clients et utilise des centaines de nœuds en périphérie pour assurer la disponibilité du service. L’architecture réseau inclut les interconnexions directes et plusieurs chemins d’accès réseau. Nos services tirent parti de cette redondance pour acheminer automatiquement le trafic en cas de défaillance afin d'améliorer la qualité du service. De plus, notre réseau nous permet de contrôler directement la capacité du réseau, et nous utilisons un réseau défini par logiciel pour gérer de manière proactive le trafic réseau à l’échelle, afin d’optimiser les performances et la résilience.
Responsabilités et dépendances partagées
Dans les environnements cloud, la résilience est une responsabilité partagée entre le fournisseur cloud et le client. Bien que Microsoft 365 se concentre sur la résilience de ses services et de son réseau, les clients doivent être conscients de leurs responsabilités et dépendances pour garantir la disponibilité des services.
Les responsabilités client pour la résilience varient en fonction du produit Microsoft 365 et de la configuration du client spécifiques, mais elles incluent souvent les éléments suivants :
- Gestion des licences pour les abonnements Microsoft 365.
- Maintenance de la connectivité réseau appropriée à partir des appareils des utilisateurs finaux.
- Formation des utilisateurs à comprendre les stratégies de rétention et de récupération et à utiliser les fonctionnalités de rétention.
- Lancement de la récupération des données dans le délai de rétention des services pour les services pertinents.
- Gestion et maintenance de tous les annuaires locaux.
- Examen et résolution des erreurs azure AD Sync.
- Développement et adoption de stratégies de contingence (par exemple, configuration des comptes d’accès d’urgence);
- Gestion et garantie de la connectivité et de la fonctionnalité des HSM client