Erstellen von Baselines für die Neuerstellung von Exchange-Inhaltsindizes – Teil 3

Article
07/23/2012

Veröffentlichung des Originalartikels: 02.07.2012

In Teil 1 dieser Artikelreihe habe ich das Skript E2K7_IndexRebuildAnalyzer.ps1 erklärt. In Teil 2 habe ich das "Search Rebuild Framework" erläutert, das Anatoly Girko und ich entwickelt haben. Zum Schluss wollte ich Ihnen unbedingt noch eine Reihe von Diagrammen und eine Tabelle mit "beobachteten Durchschnittswerten" zur Verfügung stellen, die die Charakteristika der Neuerstellung veranschaulichen, die wir seit der Einführung des Frameworks erfasst haben. Ich hoffe, dass dieses Anschauungsmaterial Ihnen hilft, eine bessere Konzeption zu entwickeln und fundiertere Schätzungen beim Berechnen eigener Werte für Neuerstellungen abzugeben.

Bis dato bei Microsoft beobachtete Durchschnittswerte

Anatoly und ich überlegten hin und her, wie wir diesen Teil am besten präsentieren sollten. Wie Sie sich vorstellen können, gibt es unendlich viele Möglichkeiten, solche Inhalte zu veranschaulichen. Wir beschlossen, den Umfang der Diagramme und Tabellen auf die Nachrichtengröße zu beschränken, für die die meisten Exchange-Speicherarchitekten entwickeln: 150 KB pro E-Mail-Element. Dann wendeten wir einen sekundären Filter auf Anzahl der Postfächer an und bezogen für die Gewinnung der unten aufgeführten Durchschnittswerte nur die Postfachdatenbanken in unseren Datensammlungen ein, die mindestens 100 aktive Postfächer enthielten. Anschließend entfernten wir die 10 % Neuerstellungsvorgänge mit der besten Leistung und die 10 % mit der schlechtesten Leistung aus unserer Sammlung und leiteten dann die Durchschnittswerte für die Erstellung der Diagramme und Tabellen ab.

Hinweis: In den nachstehenden Diagrammen und Tabellen fehlt in mehreren Bereichsschritten die Durchschnittliche Postfachgröße. Diese Daten wurden weder übersehen noch absichtlich weggelassen. Dass statistische Werte für diese Bereiche fehlen, liegt an der Tatsache, dass in unseren Sammlungen von historischen Daten keine gültigen Daten vorhanden sind. Anders gesagt: Für Datenbanken, in denen die durchschnittliche Postfachgröße für Endbenutzer-Postfächer sich in den folgenden Bereichen bewegten, haben wir noch nie Neuerstellungsvorgänge für Inhaltsindizes ausgeführt und/oder Metriken nach der Neuerstellung gesammelt:

1.700-1.799 MB
1.800-1.899 MB
2.000-2.099 MB
2.100-2.199 MB

Diagramme

Wir präsentieren vier Excel-PivotCharts, die die Durchsatzwerte widerspiegeln, die wir bis dato basierend auf der oben beschriebenen gefilterten Sammlung beobachtet haben. Diese PivotCharts sollen die Beziehung zwischen den verschiedenen Eigenschaften innerhalb und außerhalb des Postfachspeichers veranschaulichen (z. B. Anzahl der Postfächer, Anzahl der Elemente und EDB-Dateigrößen) und sie mit den historischen Werten für die Dauer der Ausführung von vollständigen Durchforstungen in Postfachspeichern mit ähnlichen Merkmalen vergleichen.

Diagramm 1

Die Darstellung in Diagramm 1 zeigt speziell die Beziehung zwischen der Anzahl der Postfächer pro Datenbank und der relativen Größe der Postfachdatenbanken in Gigabytes einerseits und deren Auswirkung auf die Dauer der Ausführung der vollständigen Neuerstellung der Inhaltsindizes der Postfachspeicher in Minuten andererseits.

Dieses Diagramm belegt klar, dass parallel zur Anzahl der aktiven Postfächer in einer Exchange-Postfachdatenbank auch die EDB-Dateigrößen im Speichersubsystem tendenziell zunehmen. Diese Beziehung wirkt sich letztlich auch auf die Gesamtdauer der Ausführung einer vollständigen Durchforstung eines Inhaltsindex aus. Einfacher ausgedrückt: mehr aktive Postfächer bedeuten meist mehr E-Mail-Elemente; mehr E-Mail-Elemente bedeuten größere EDB-Dateien auf dem Datenträger; je größer eine EDB-Datei auf dem Datenträger, umso länger dauert "normalerweise" die Neuerstellung eines Inhaltsindex. Der einzige Fall, in der diese Hypothese nie zutrifft, ist eine Postfachdatenbank, in der viel Leerraum in der Datei vorhanden war. In diesem Fall ist die Gesamtdauer der Ausführung einer Inhaltsindex-Neuerstellung deutlich kürzer als erwartet. Diese Anomalie haben wir bei den von uns unterstützten Umgebungen beobachtet, aber die nachfolgenden Statistiken haben wir mithilfe des oben beschriebenen Filterverfahrens aus unserer Sammlung entfernt.

Diagramm 2

Diagramm 2 zeigt die Auswirkungen der Durchschnittlichen Postfachgröße (für Postfächer in Datenbanken, die sich im gleichen gefilterten Beispielsatz befinden) auf den Durchsatz der Inhaltsindex-Neuerstellung auf Postfachdatenbank-Ebene in Sekunden pro Postfach.

Dieses Diagramm untermauert im Prinzip das in Diagramm 1 veranschaulichte Argument, wenn auch auf der Ebene der aktiven Postfächer. Insbesondere steigt mit der Durchschnittsgröße der aktiven Postfächer auch die durchschnittliche Anzahl der E-Mail-Elemente in diesen Postfächern an. Im Schnitt lässt sich sagen, je mehr E-Mail-Elemente ein Postfach enthält, umso länger braucht die Suchindizierung für die Durchforstung in einem bestimmten Postfach, was sich wiederum auf die Dauer der Ausführung der vollständigen Durchforstung für alle Postfächer in der Datenbank auswirkt.

Diagramm 3

Diagramm 3 zeigt die Auswirkungen der Durchschnittlichen Postfachgröße (für Postfächer in Datenbanken, die sich im gleichen gefilterten Beispielsatz befinden) auf den Durchsatz der Inhaltsindex-Neuerstellung in Megabytes pro Sekunde.

Diagramm 3 knüpft an die Hypothese aus Diagramm 2 an. Insbesondere zeigt es Folgendes: Je höher die Durchschnittliche Postfachgröße und die Durchschnittliche Anzahl der Elemente in einer Postfachdatenbank, umso niedriger der Durchsatz der Suchindizierung. In Diagramm 3 wird diese Beziehung in Megabytes pro Sekunde dargestellt.

Diagramm 4

Diagramm 4 zeigt die Auswirkungen der Durchschnittlichen Postfachgröße (für Postfächer in Datenbanken, die sich im gleichen gefilterten Beispielsatz befinden) auf den Durchsatz der Inhaltsindex-Neuerstellung in Elementen pro Sekunde (basierend auf einer durchschnittlichen Nachrichtengröße von 150 KB):

Ähnlich wie das Diagramm 3 zeigt Diagramm 4 die negative Auswirkung auf die Leistung hinsichtlich des Durchsatzes, hier in Elementen pro Sekunde.

Tabelle der beobachteten Durchschnittswerte

Für die Zusammenstellung der Tabelle haben wir den gleichen Filtersatz verwendet (wie oben beschrieben und in den Diagrammen dargestellt), aber fokussierte Durchschnittswerte basierend auf der durchschnittlichen Postfachgröße erstellt. Diese Datensätze werden nachfolgend in 99-MB-Schritten in einzelne Zeilen ausgeschlüsselt. Der Durchsatzwert für jede Zeile stellt die aggregierten Durchschnittswerte für alle Datenbanken ähnlicher Größe dar, für die abgeschlossene Neuerstellungsvorgänge in unserer Sammlung vorhanden sind. Besonders wenn die Durchschnittliche Nachrichtengröße 150 KB war und die Durchschnittliche Postfachgröße für alle aktiven Postfächer in diesen Datenbanken innerhalb der in Spalte A definierten Bereiche lag.

Die historischen Durchschnittswerte in dieser Tabelle eröffnen (zumindest mir) drei Möglichkeiten, die Dauer von Inhaltsindex-Neuerstellungsvorgängen zu schätzen:

Ein "Historischer Durchschnitt" könnte basierend auf der Durchschnittlichen Postfachgröße implementiert werden, wobei die Durchschnittliche Nachrichtengröße für Elemente in diesen Postfächern 150 KB beträgt.Da unsere Sammlung große Mengen von historischen Neuerstellungsdaten enthält, verwenden wir diesen Durchschnittswert. Unsere Schätzung leiten wir durch Ermittlung der Durchschnittlichen Postfachgröße über Metriken "vor der Neuerstellung" und Vergleich dieses Werts mit dem historischen Durchschnittswert ab. Anschließend nehmen wir den zusammengesetzten Durchschnittswert für Neuerstellung: Sekunden pro Postfach und multiplizieren ihn mit der Anzahl der Postfächer in der Datenbank, die durchforstet werden müssen, um die Gesamtdauer der Ausführung zu bestimmen.
Außerdem könnte ein "Organisationsdurchschnitt" basierend auf der Durchschnittlichen Nachrichtengröße unabhängig von der Anzahl der Elemente und der durchschnittlichen Größe der Postfächer in der gesamten Organisation definiert werden (dieser Organisationsdurchschnitt ist in der obigen Tabelle in der Zeile Durchschnitte angegeben).
Ein zusammengesetzter Durchschnittswert aus historischem Durchschnitt und Organisationsdurchschnitt.

Wenn ich beispielsweise einen Inhaltsindex, der neu erstellt werden muss, für eine Datenbank habe, deren Benutzer eine zusammengefasste Durchschnittliche Postfachgröße im Bereich von 500 bis 599 MB haben, und die durchschnittliche Nachrichtengröße 150 KB beträgt, könnte ich, wenn die Datenbank 200 Benutzer hat, die Schätzung auf einem der drei folgenden möglichen Wege ableiten:

Tabelle "Historische Durchschnitte" :

200 Postfächer * 63 Sekunden = 12.600 Sekunden insgesamt. Dies entspricht 210 Minuten oder rund 3,5 Stunden Ausführungsdauer der vollständigen Durchforstung.

"Organisationsdurchschnitt" :

200 Postfächer * 108 Sekunden = 21.600 Sekunden insgesamt. Dies entspricht 360 Minuten oder rund 6,0 Stunden Ausführungsdauer der vollständigen Durchforstung.

Zusammengesetzter Durchschnittswert (Durchschnitt aus "Historisch" und "Organisation") :

3,5 + 6,0 = 9,5 Stunden

9,5 / 2 = 4,75 Stunden

Schlussbemerkung

Die Gesamtdauer einer Inhaltsindex-Neuerstellung wird immer unterschiedlich sein, weil Postfächer und darin enthaltene Elemente ebenfalls immer unterschiedlich sind. Beim Neuerstellen von Inhaltsindizes werden die genauesten und zuverlässigsten Schätzungen immer unter Berücksichtigung von historischen Durchschnittswerten gewonnen. Ich möchte auch nochmal darauf hinweisen, dass wir, wenn wir eine Neuerstellung von Inhaltsindizes intern bei MSFT beschließen, diese möglichst für Zeitintervalle terminieren, an denen die Auswirkungen auf die Benutzer so gering wie möglich sind. Allerdings sind unsere Implementierungen global, sodass es mehr oder weniger unmöglich ist, diese Auswirkungen ganz auszuschließen. Das Optimum, das man erwarten kann, ist, die Auswirkung auf den Oberflächenbereich zu minimieren. Darüber hinaus beziehen wir in unseren Datensammlungen keine Drosselungsverzögerungen der Suchindizierung ein. Alle Drosselungsverzögerungen der Suchindizierung bei Neuerstellungen werden im selben Moment behandelt und sind innerhalb der einzelnen Tickets repräsentativ. Mithilfe der Filterverfahren, die in diesem Beitrag angewendet wurden, können Sie Ihre Zahlen von diesen negativen Durchschnittswerten isolieren (das gilt auch für Neuerstellungsvorgänge mit "übermäßig hohem Durchsatz"). Dadurch sind Ihre allgemeinen Schätzungen erheblich genauer.

Wenn Sie der Typ sind, der gerne auf Durchschnittswerte setzt, kann ich das voll und ganz verstehen. Sollte eine "exaktere Wissenschaft" benötigt werden, schlage ich vor, dass Sie ein Framework wie das in dieser Beitragsreihe beschriebene implementieren.

Wir hoffen, dass diese Beitragsreihe für Sie hilfreich ist und freuen und besonders, wenn Sie beim Lesen Neues dazugelernt haben.

Viel Erfolg!

Eric Norberg
Service Engineer
Office 365

Dies ist ein übersetzter Blogbeitrag. Den Originalartikel finden Sie unter Establishing Exchange Content Index Rebuild Baselines – Part 3

Share via