Supervision et réparation automatique des données dans Microsoft 365

Article
06/25/2024

Compte tenu de l’échelle de Microsoft 365, il serait impossible de conserver les données client résilientes et sécurisées contre les programmes malveillants sans surveillance intégrée complète, alerte intelligente et auto-réparation rapide et fiable. La surveillance d’un ensemble de services à l’échelle de Microsoft 365 est difficile. De nouvelles mentalités et méthodologies devaient être introduites, et de nouveaux ensembles de technologies devaient être créés pour exploiter et gérer les services dans un environnement mondial connecté. Nous sommes passés de l’approche de surveillance traditionnelle de la collecte et du filtrage des données pour créer des alertes à une approche basée sur l’analyse des données ; prendre des signaux et renforcer la confiance dans ces données, puis utiliser l’automatisation pour récupérer ou résoudre le problème. Cette approche permet de sortir les humains de l’équation de récupération, ce qui rend les opérations moins coûteuses, plus rapides et moins sujettes aux erreurs.

La supervision microsoft 365 repose sur une collection de technologies qui composent notre moteur Data Insights, qui repose sur Azure, SQL Azure et la technologie de base de données de streaming open source. Il est conçu pour collecter et agréger des données et tirer des conclusions. Actuellement, il traite plus de 500 millions d’événements par heure à partir de plus de 100 000 serveurs (environ 15 To par jour) répartis dans des dizaines de centres de données dans de nombreuses régions, et ces nombres augmentent.

Microsoft 365 utilise une supervision externe à l’intérieur, qui implique la création de transactions synthétiques pour tester tout ce qui est important. Par exemple, dans Exchange, chaque scénario teste chaque base de données dans le monde toutes les cinq minutes de manière dispersée, fournissant une couverture quasi continue de tout ce qui se trouve dans le système. À partir de plusieurs emplacements, 250 millions de transactions de test par jour sont effectuées pour créer une base de référence ou une pulsation robuste pour le service.

Microsoft 365 utilise également le concept d’alerte rouge, qui réduit tous les signaux de surveillance de toutes les machines de nos centres de données à quelque chose de gérable par un être humain. Le concept est simple : si quelque chose se passe sur plusieurs signaux, il doit y avoir quelque chose qui se passe. Il ne s’agit pas de renforcer la confiance en un signal, mais d’avoir une fidélité raisonnable pour chaque signal afin d’obtenir une plus grande précision. Ce système de surveillance est si puissant que nous n’avons pas de personnel 24h/24, 7 j/7 qui surveille nos moniteurs ; tout ce que nous avons, c’est la machine qui se réveille si elle détecte un problème, auquel cas elle va mettre en page le personnel de garde approprié, ou, plus souvent, comme c’est le cas, elle va juste aller de l’avant et résoudre le problème. Une fois que nous commençons à collecter des signaux et à créer des alertes rouges, nous pouvons commencer à effectuer une triangulation sur toutes nos partitions de service.

En fonction de la combinaison de l’alerte d’échec et des alertes rouges, cette alerte indique exactement quels composants peuvent rencontrer un problème et que le système va essayer de corriger le problème par lui-même en redémarrant un serveur de boîtes aux lettres.

En plus des fonctionnalités de réparation automatique telles que la restauration d’une seule page, Exchange inclut plusieurs fonctionnalités qui prennent une approche de la supervision et de la réparation automatique, qui se concentrent sur la préservation de l’expérience de l’utilisateur final. Ces fonctionnalités incluent la disponibilité managée, qui fournit des actions intégrées de surveillance et de récupération, et AutoReseed, qui restaure automatiquement la redondance de base de données après une défaillance de disque.

Disponibilité gérée

La disponibilité managée fournit une solution native de contrôle d’intégrité et de récupération qui surveille et protège l’expérience de l’utilisateur final par le biais d’actions orientées récupération. La disponibilité managée est l’intégration d’actions intégrées de surveillance et de récupération à la plateforme de haute disponibilité Exchange. Elle est conçue pour détecter des problèmes et procéder à une récupération dès qu'ils apparaissent ou sont découverts par le système. À la différence des techniques et solutions externes de surveillance précédentes pour Exchange, la disponibilité gérée ne tente pas d'identifier ni de communiquer la cause première d'un incident. Au lieu de cela, il se concentre sur les aspects de récupération qui traitent de trois domaines clés de l’expérience de l’utilisateur final :

Disponibilité : les utilisateurs peuvent-ils accéder au service ?
Latence : comment est l’expérience pour les utilisateurs ?
Erreurs : les utilisateurs sont-ils en mesure d’accomplir ce qu’ils veulent ?

La disponibilité managée est une fonctionnalité interne qui s’exécute sur chaque serveur Microsoft 365 exécutant Exchange. Elle interroge et analyse des centaines de paramètres d'intégrité par seconde. Si un problème est détecté, la plupart du temps, il est résolu automatiquement. Mais il y aura toujours des problèmes que la disponibilité managée n’est pas en mesure de résoudre seule. Dans ce cas, la disponibilité managée fait remonter le problème à une équipe de support Microsoft 365 via la journalisation des événements.

AutoReseed

Les serveurs Exchange sont déployés dans une configuration qui stocke plusieurs bases de données et leurs flux de journaux sur le même disque non RAID. Cette configuration est souvent appelée simplement un ensemble de disques (JBOD), car aucun mécanisme de redondance de stockage, tel que RAID, n’est utilisé pour dupliquer les données sur le disque. Lorsqu’un disque échoue dans un environnement JBOD, les données sur ce disque sont perdues.

Étant donné la taille d’Exchange et le fait qu’il y a des millions de lecteurs de disque déployés, les défaillances de lecteur de disque se produisent régulièrement dans Exchange. En fait, plus de 100 échouent chaque jour. Lorsqu’un disque échoue dans un déploiement d’entreprise local, un administrateur doit remplacer manuellement le disque défaillant et restaurer les données affectées. Dans un déploiement cloud de la taille de Microsoft 365, le remplacement manuel des disques par des opérateurs (administrateurs cloud) n’est ni pratique ni économiquement réalisable.

Le réeed automatique, ou AutoReseed, est une fonctionnalité qui remplace l’action normalement pilotée par un opérateur en réponse à une défaillance de disque, à un événement d’altération de la base de données ou à un autre problème qui nécessite un réinstallation d’une copie de base de données. La fonctionnalité AutoReseed permet de restaurer automatiquement la redondance de base de données après une défaillance de disque par le biais de disques de rechange qui ont été configurés sur le système. En cas de défaillance d’un disque, les copies de base de données stockées sur ce disque sont automatiquement réinsérées sur un disque de rechange préconfiguré sur le serveur, ce qui restaure la redondance.

Partager via

Supervision et réparation automatique des données dans Microsoft 365

Disponibilité gérée

AutoReseed

Commentaires

Ressources supplémentaires