Funktionsweise von Azure Data Explorer
Azure Data Explorer bietet eine unvergleichliche Leistung für das Erfassen und Abfragen von Telemetrie, Protokollen, Ereignissen, Ablaufverfolgungen und Zeitreihendaten. Es verfügt über optimierte Speicherformate, Indizes und verwendet erweiterte Datenstatistiken für eine effiziente Abfrageplanung und just-in-time-kompilierte Abfrageausführung.
Speicher im Vergleich zur Berechnung
Azure Data Explorer trennt Speicher- und Computeressourcen. Persistente Daten befinden sich in Azure Blob Storage, während Computeressourcen temporäre Daten speichern oder als Cache für beständigen Speicher fungieren können.
Diese Trennung bietet die folgenden Vorteile:
- Unabhängige Skalierung von Speicher- und Computeressourcen.
- Barrierefreiheit für identische Daten in mehreren Computeclustern. Weitere Informationen finden Sie unter "Datenfreigabe".
- SKU-Optimierung. Weitere Informationen finden Sie unter Auswählen einer SKU für Ihren Cluster.
Datenspeicher
Der Azure-Daten-Explorer partitioniert alle erfassten Daten in Umfange oder Datenshardien, die horizontale Segmente der Zieltabelle sind. Ein Umfang kann so klein wie ein einzelner Datensatz beginnen. Da sich Daten in der Tabelle ansammeln, führt Azure Data Explorer automatisch Erweiterungen zusammen, bis sie zu Millionen von Datensätzen gehören. Jedes Ausmaß wird unabhängig von anderen Ausmaßen codiert und indiziert. Diese Funktionalität trägt zum linearen Skalierungsdurchsatz bei.
Erweiterungen werden gleichmäßig über Clusterknoten verteilt, in denen sie sowohl auf der lokalen SSD als auch im Arbeitsspeicher zwischengespeichert werden. Diese Verteilung verbessert die Kapazität, hoch verteilte und parallele Abfragen vorzubereiten und auszuführen.
Weitere Informationen zur Datenspeicherung finden Sie in der Übersicht über Die Erweiterungen.
Hinweis
Azure Data Explorer behält auch wichtige Metadaten wie Tabellenschemas und Richtlinienobjekte bei. Eine Liste der Richtlinien finden Sie unter "Richtlinienübersicht".
Datencache
Azure Data Explorer verfügt über ein Mehrhierarchie-Datencachesystem, um sicherzustellen, dass die relevantesten Daten so nah wie möglich an der CPU zwischengespeichert werden. Das Cachesystem hängt von der Unveränderlichkeit von Ausmaßen ab und funktioniert vollständig mit komprimierten Daten. Um die Abfrageleistung zu verbessern, bleiben Die Daten auch im RAM komprimiert und werden nur bei Bedarf für eine Abfrage dekomprimiert.
Weitere Informationen zum Zwischenspeichern finden Sie unter "Cacherichtlinie".
Textindizierung
Azure Data Explorer ist so konzipiert, dass Freitextspalten (Zeichenfolge) und JSON-ähnliche (dynamische) Spalten effizient indiziert werden, wenn Daten aufgenommen werden. Die Indizes behalten eine Granularitätsebene bei, die die Auswertung von Teilen der Abfrage basierend auf dem Index ermöglicht, ohne die Daten zu scannen.
Durch die Zusammenführung verbessert die kontinuierliche Hintergrundoptimierung die Komprimierung und Indizierung, wodurch eine effiziente Speicher- und niedrige Abfragelatenz gewährleistet wird. Sobald die Indizes eine bestimmte Größe erreichen, werden nur die Indizes zusammengeführt, um die Abfrageleistung zu verbessern, ohne die Effizienz zu beeinträchtigen.
Weitere Informationen zum Umfang und zum Zusammenführen von Indexen finden Sie unter "Richtlinie zusammenführen".
Zeilenspeicher
Azure Data Explorer bietet eine Zwischenspeicherlösung namens Zeilenspeicher. Der Zeilenspeicher ermöglicht die effiziente Aufnahme kleiner Datenabschnitte und stellt sicher, dass diese Daten sofort für die Abfrage verfügbar sind. Wenn Sie die Streamingaufnahme auf Ihrem Cluster aktivieren, werden die Daten zunächst in den Zeilenspeicher aufgenommen und dann in Spaltenspeicher-Umfang verschoben.
Weitere Informationen finden Sie unter Batchverarbeitung im Vergleich zur Streamingaufnahme.
Spaltenkomprimierung
Azure Data Explorer verwaltet Daten in einem komprimierten Zustand, wodurch die zum Speichern und Verarbeiten von Daten erforderliche Arbeitsspeichermenge reduziert wird. Dieses Verhalten führt zu einer schnelleren Abfrageleistung und effizienterer Verwendung von Systemressourcen.
Azure Data Explorer vermeidet die vertikale Komprimierung, was das Sortieren von Daten zur Verbesserung der Komprimierung erfordert, da die CPU-Kosten in Freitext- oder halbstrukturierten Datenszenarien hoch sind. Stattdessen können Sie die bevorzugte Datensortierreihenfolge für Szenarien mit dominanten Abfragemustern angeben. Dieser Kompromiss priorisiert die schnelle Datenverfügbarkeit für Abfragen.
Weitere Informationen zum Angeben der Datensortierreihenfolge finden Sie in der Zeilenreihenfolgerichtlinie.
Verteilte Datenabfrage
Azure Data Explorer verwendet verteilte Datenabfragetechnologie, die für schnelle Ad-hoc-Analysen für große unstrukturierte Datasets vorgesehen ist. Zu den wichtigsten Merkmalen dieser Technologie gehören:
- Abfragegenerierte temporäre Daten werden im aggregierten RAM gespeichert.
- Relevante Ausdehnungen werden in einem Abfrageplan markiert und stellen snapshotisolation bereit.
- Schnelle und effiziente Abfragen werden mit kurzen Standardtimeouts priorisiert.
- Systemeigene Unterstützung für clusterübergreifende Abfragen , die den Austausch von Clusterdaten minimieren
- Abfragen werden just-in-time kompiliert und in hocheffizientem Computercode unter Verwendung von Datenstatistiken aus allen Ausmaßen und auf Spaltencodierungsspezifischen zugeschnitten
Hinweis
Der Azure-Daten-Explorer ist für die Arbeit mit dem Kusto-Abfragesprache (KQL) konzipiert, das für Den Azure-Daten-Explorer erstellt wurde. Darüber hinaus wird T-SQL unterstützt.