Datenüberwachung und Selbstreparatur in Microsoft 365

Artikel
06/25/2024

Angesichts der Skalierbarkeit von Microsoft 365 wäre es unmöglich, Kundendaten resilient und vor Schadsoftware zu schützen, ohne eine integrierte Überwachung, die umfassend ist, eine intelligente Warnung und eine schnelle und zuverlässige Selbstreparatur. Die Überwachung einer Reihe von Diensten im Umfang von Microsoft 365 ist eine Herausforderung. Es mussten neue Denkweisen und Methoden eingeführt werden, und es mussten neue Technologiesätze geschaffen werden, um Dienstleistungen in einer vernetzten globalen Umgebung zu betreiben und zu verwalten. Wir haben uns vom herkömmlichen Überwachungsansatz der Datenerfassung und -filterung entfernt, um Warnungen für einen Ansatz zu erstellen, der auf Datenanalysen basiert. Signale zu erfassen und Vertrauen in diese Daten aufzubauen und dann die Automatisierung zu verwenden, um das Problem wiederherzustellen oder zu beheben. Dieser Ansatz hilft, Menschen aus der Wiederherstellungsgleichung zu nehmen, was wiederum Vorgänge kostengünstiger, schneller und weniger fehleranfällig macht.

Grundlegend für die Microsoft 365-Überwachung ist eine Sammlung von Technologien, aus denen unsere Data Insights Engine besteht, die auf Azure, SQL Azure und Open-Source-Streamingdatenbanktechnologie basiert. Es ist darauf ausgelegt, Daten zu sammeln und zu aggregieren und Schlussfolgerungen zu ziehen. Derzeit verarbeitet es mehr als 500 Millionen Ereignisse pro Stunde von mehr als 100.000 Servern (ca. 15 TB pro Tag), die auf Dutzende von Rechenzentren in vielen Regionen verteilt sind, und diese Zahl nimmt zu.

Microsoft 365 verwendet externe Überwachung, die das Erstellen synthetischer Transaktionen umfasst, um alles zu testen, was wichtig ist. In Exchange testet jedes Szenario beispielsweise alle fünf Minuten jede Datenbank weltweit auf verstreute Weise, sodass nahezu kontinuierlich alles abgedeckt wird, was im System vorhanden ist. Von mehreren Standorten aus werden 250 Millionen Testtransaktionen pro Tag ausgeführt, um eine stabile Baseline oder einen stabilen Takt für den Dienst zu erstellen.

Microsoft 365 verwendet auch das Konzept der Roten Warnung, das alle Überwachungssignale von allen Computern in unseren Rechenzentren auf etwas reduziert, das von einem Menschen verwaltet werden kann. Das Konzept ist einfach: Wenn etwas über mehrere Signale hinweg passiert, muss etwas los sein. Es geht nicht darum, Vertrauen in ein Signal zu schaffen, es geht darum, eine angemessene Genauigkeit für jedes Signal zu haben, damit Sie eine höhere Genauigkeit erhalten. Dieses Überwachungssystem ist so leistungsfähig, dass wir keine 24x7-Mitarbeiter haben, die unsere Monitore beobachten; Alles, was wir haben, ist die Maschinerie, die aufwacht, wenn es ein Problem erkennt, in diesem Fall wird es das entsprechende Bereitschaftspersonal ausblättern, oder häufiger, wie es der Fall ist, es wird einfach weitergehen und das Problem lösen. Sobald wir damit beginnen, Signale zu sammeln und rote Warnungen daraus zu erstellen, können wir mit der Triangulation aller Dienstpartitionen beginnen.

Basierend auf der Kombination aus Der Fehlerwarnung und den Roten Warnungen gibt diese Warnung genau an, welche Komponenten ein Problem haben könnten, und dass das System versucht, das Problem selbst zu beheben, indem es einen Postfachserver neu startet.

Zusätzlich zu Selbstreparaturfunktionen wie der Wiederherstellung einer einzelnen Seite umfasst Exchange mehrere Features, die einen Ansatz für die Überwachung und Selbstreparatur verfolgen, der sich auf die Aufrechterhaltung der Endbenutzererfahrung konzentriert. Zu diesen Features gehören die verwaltete Verfügbarkeit, die integrierte Überwachungs- und Wiederherstellungsaktionen bereitstellt, und AutoReseed, mit dem die Datenbankredundanz nach einem Datenträgerausfall automatisch wiederhergestellt wird.

Verwaltete Verfügbarkeit

Die verwaltete Verfügbarkeit bietet eine native Integritätsprüfungs- und Wiederherstellungslösung, die die Endbenutzererfahrung durch wiederherstellungsorientierte Aktionen überwacht und schützt. Verwaltete Verfügbarkeit ist die Integration integrierter Überwachungs- und Wiederherstellungsaktionen in die Exchange-Hochverfügbarkeitsplattform. Sie ist dafür vorgesehen, vom System erkannte Probleme sofort zu ermitteln und zu beheben. Im Gegensatz zu früheren externen Überwachungslösungen und -techniken für Exchange versucht die verwaltete Verfügbarkeit nicht, die eigentliche Ursache eines Problems zu ermitteln oder zu kommunizieren. Stattdessen konzentriert es sich auf Wiederherstellungsaspekte, die sich auf drei wichtige Bereiche der Endbenutzererfahrung beziehen:

Verfügbarkeit : Können Benutzer auf den Dienst zugreifen?
Latenz : Wie ist die Erfahrung für Benutzer?
Fehler : Können Benutzer erreichen, was sie möchten?

Verwaltete Verfügbarkeit ist ein internes Feature, das auf jedem Microsoft 365-Server mit Exchange ausgeführt wird. Dabei werden in jeder Sekunde Hunderte von Integritätsmetriken abgerufen. Wenn ein Fehler festgestellt wird, wird es meistens automatisch behoben. Es gibt jedoch immer Probleme, die die verwaltete Verfügbarkeit nicht alleine beheben kann. In diesen Fällen eskaliert die verwaltete Verfügbarkeit das Problem über die Ereignisprotokollierung an ein Microsoft 365-Supportteam.

AutoReseed

Exchange-Server werden in einer Konfiguration bereitgestellt, in der mehrere Datenbanken und deren Protokolldatenströme auf demselben Nicht-RAID-Datenträger gespeichert werden. Diese Konfiguration wird häufig als nur eine Reihe von Datenträgern (JBOD) bezeichnet, da keine Speicherredundanzmechanismen wie RAID verwendet werden, um die Daten auf dem Datenträger zu duplizieren. Wenn ein Datenträger in einer JBOD-Umgebung ausfällt, gehen die Daten auf diesem Datenträger verloren.

Angesichts der Größe von Exchange und der Tatsache, dass es sich darin um Millionen von Datenträgern handelt, sind Laufwerksfehler ein regelmäßiges Vorkommen in Exchange. Tatsächlich scheitern jeden Tag mehr als 100. Wenn ein Datenträger in einer lokalen Unternehmensbereitstellung ausfällt, muss ein Administrator den fehlerhaften Datenträger manuell ersetzen und die betroffenen Daten wiederherstellen. In einer Cloudbereitstellung von der Größe von Microsoft 365 ist es weder praktikabel noch wirtschaftlich möglich, dass Operatoren (Cloudadministratoren) Datenträger manuell ersetzen.

Automatic Reseed oder AutoReseed ist ein Feature, das als Reaktion auf einen Datenträgerfehler, ein Datenbankbeschädigungsereignis oder ein anderes Problem, das ein erneutes Insenieren einer Datenbankkopie erfordert, ersetzt, was normalerweise eine operatorgesteuerte Aktion ist. AutoReseed ist so konzipiert, dass die Datenbankredundanz nach einem Datenträgerausfall automatisch wiederhergestellt wird, indem ersatzfähige Datenträger verwendet werden, die auf dem System bereitgestellt wurden. Wenn ein Datenträger ausfällt, werden die auf diesem Datenträger gespeicherten Datenbankkopien automatisch wieder auf einen vorkonfigurierten Ersatzdatenträger auf dem Server eingereet, wodurch redundanz wiederhergestellt wird.

Freigeben über

Datenüberwachung und Selbstreparatur in Microsoft 365

Verwaltete Verfügbarkeit

AutoReseed

Feedback

Zusätzliche Ressourcen