Erfassen von Verlaufsdaten in Azure Data Explorer
Ein häufiges Szenario beim Onboarding in Azure Data Explorer ist das Aufnehmen von historischen Daten, manchmal auch als Backfill bezeichnet. Der Prozess umfasst das Erfassen von Daten aus einem vorhandenen Speichersystem in eine Tabelle, bei der es sich um eine Sammlung von Ausmaßen handelt.
Es wird empfohlen, historische Daten mithilfe der CreationTime-Erfassungseigenschaft aufzunehmen, um die Erstellungszeit von Ausmaßen bis zum Zeitpunkt der Erstellung der Daten festzulegen. Die Verwendung der Erstellungszeit als Aufnahmepartitionskriterium kann Ihre Daten entsprechend Ihren Cache - und Aufbewahrungsrichtlinien altern und Zeitfilter effizienter gestalten.
Standardmäßig wird die Erstellungszeit für Soweit auf den Zeitpunkt festgelegt, zu dem die Daten aufgenommen werden, was möglicherweise nicht zu dem Verhalten führen kann, das Sie erwarten. Angenommen, Sie haben eine Tabelle, die einen Cachezeitraum von 30 Tagen und einen Aufbewahrungszeitraum von zwei Jahren hat. Im normalen Fluss werden daten, die während der Produktion produziert werden, 30 Tage zwischengespeichert und dann in den Kaltspeicher verschoben. Nach zwei Jahren, basierend auf der Erstellungszeit, werden ältere Daten jeweils einen Tag entfernt. Wenn Sie jedoch zwei Jahre historische Daten aufnehmen, bei denen die Daten standardmäßig mit der Erstellungszeit gekennzeichnet sind, während die Daten aufgenommen werden. Dies kann das gewünschte Ergebnis nicht erzeugen, weil:
- Alle Daten landen im Cache und bleiben 30 Tage lang dort und verwenden mehr Cache als erwartet.
- Ältere Daten werden jeweils nicht täglich entfernt. Daher werden Daten länger als nötig im Cluster aufbewahrt und nach zwei Jahren alle gleichzeitig entfernt.
- Daten, die zuvor nach Datum im Quellsystem gruppiert wurden, können nun in demselben Ausmaß zusammengefasst werden, das zu ineffizienten Abfragen führt.
In diesem Artikel erfahren Sie, wie Sie historische Daten partitionieren:
Verwenden der Aufnahmeeigenschaft während der
creationTime
Aufnahme (empfohlen)Nehmen Sie nach Möglichkeit historische Daten mithilfe der
creationTime
Erfassungseigenschaft ein, mit der Sie die Erstellungszeit der Ausmaße festlegen können, indem Sie sie aus der Datei oder dem BLOB-Pfad extrahieren. Wenn Ihre Ordnerstruktur kein Erstellungsdatumsmuster verwendet, empfiehlt es sich, den Datei- oder BLOB-Pfad neu zu strukturieren, um die Erstellungszeit widerzuspiegeln. Mithilfe dieser Methode werden die Daten mit der richtigen Erstellungszeit in die Tabelle aufgenommen, und die Cache- und Aufbewahrungszeiträume werden ordnungsgemäß angewendet.Hinweis
Standardmäßig werden Erweiterungen nach Erstellungszeit (Erfassung) partitioniert, und in den meisten Fällen ist es nicht erforderlich, eine Datenpartitionierungsrichtlinie festzulegen.
Verwenden einer Partitionierungsrichtlinie nach der Erfassung
Wenn Sie die
creationTime
Erfassungseigenschaft nicht verwenden können, z. B. wenn Sie Daten mithilfe des Azure Cosmos DB-Connectors aufnehmen, in dem Sie die Erstellungszeit nicht steuern können oder wenn Sie die Ordnerstruktur nicht neu strukturieren können, können Sie die Tabelle nach der Aufnahme neu partitionieren, um denselben Effekt mithilfe der Partitionierungsrichtlinie zu erzielen. Diese Methode erfordert jedoch möglicherweise einige Tests und Fehler zum Optimieren von Richtlinieneigenschaften und ist weniger effizient als die Verwendung dercreationTime
Aufnahmeeigenschaft. Diese Methode wird nur empfohlen, wenn diecreationTime
Aufnahmeeigenschaft nicht möglich ist.
Voraussetzungen
- Ein Microsoft-Konto oder eine Microsoft Entra-Benutzeridentität. Ein Azure-Abonnement ist nicht erforderlich.
- Schnellstart: Erstellen eines Azure Data Explorer-Clusters und einer Datenbank. Erstellen eines Clusters und einer Datenbank
- Ein Speicherkonto.
- Installieren Sie LightIngest für die empfohlene Methode der Verwendung der Aufnahmeeigenschaft während der
creationTime
Aufnahme.
Erfassen historischer Daten
Es wird dringend empfohlen, historische Daten mithilfe der Aufnahmeeigenschaft während der creationTime
Aufnahme zu partitionieren. Wenn Sie diese Methode jedoch nicht verwenden können, können Sie die Tabelle nach der Aufnahme mithilfe einer Partitionierungsrichtlinie neu partitionieren.
LightIngest kann hilfreich sein, um Verlaufsdaten aus einem vorhandenen Speichersystem in Azure Data Explorer zu laden. Sie können zwar ihren eigenen Befehl mithilfe der Liste der Befehlszeilenargumente erstellen, in diesem Artikel erfahren Sie jedoch, wie Sie diesen Befehl über einen Aufnahme-Assistenten automatisch generieren können. Sie können mit diesem Prozess nicht nur den Befehl, sondern auch eine neue Tabelle und eine Schemazuordnung erstellen. Dieses Tool leitet die Schemazuordnung aus Dem Dataset ab.
Destination
Wählen Sie in der Azure Data Explorer-Web-UI im linken Menü " Abfrage" aus.
Klicken Sie mit der rechten Maustaste auf die Datenbank, in der Sie die Daten aufnehmen möchten, und wählen Sie dann "LightIngest" aus.
Das Fenster "Daten aufnehmen" wird geöffnet, wobei die Registerkarte "Ziel " ausgewählt ist. Die Felder Cluster und Datenbank werden automatisch aufgefüllt.
Wählen Sie eine Zieltabelle aus. Wenn Sie Daten in eine neue Tabelle aufnehmen möchten, wählen Sie "Neue Tabelle" aus, und geben Sie dann einen Tabellennamen ein.
Hinweis
Tabellennamen können bis zu 1024 Zeichen umfassen und alphanumerische Zeichen, Bindestriche und Unterstriche enthalten. Sonderzeichen werden nicht unterstützt.
Wählen Sie die Option Weiter: Quelle aus.
Quelle
Wählen Sie unter "Quelle auswählen" entweder " URL hinzufügen" oder "Container auswählen" aus.
Geben Sie beim Hinzufügen einer URL unter "Link zur Quelle" den Kontoschlüssel oder die SAS-URL zu einem Container an. Sie können die SAS-URL manuell oder automatisch erstellen.
Wenn Sie einen Container aus Ihrem Speicherkonto auswählen, wählen Sie Ihr Speicherabonnement, Ihr Speicherkonto und den Container aus den Dropdownmenüs aus.
Hinweis
Die Erfassung unterstützt eine maximale Dateigröße von 6 GB. Es wird empfohlen, Dateien zwischen 100 MB und 1 GB zu erfassen.
Wählen Sie "Erweiterte Einstellungen" aus, um zusätzliche Einstellungen für den Aufnahmeprozess mithilfe von LightIngest zu definieren.
Definieren Sie im Bereich "Erweiterte Konfiguration " die LightIngest-Einstellungen gemäß der folgenden Tabelle.
Eigenschaft Beschreibung Erstellungszeitmuster Mit dieser Angabe wird die Erfassungszeiteigenschaft der erstellten Erweiterung durch ein Muster überschrieben – beispielsweise, um ein Datum basierend auf der Ordnerstruktur des Containers anzuwenden. Weitere Informationen finden Sie auch unter Erfassen von Daten mithilfe von CreationTime. Blob-Namensmuster Geben Sie das Muster zum Identifizieren der zu erfassenden Dateien an. Es werden alle Dateien erfasst, die dem Blob-Namensmuster im angegebenen Container entsprechen. Unterstützt Platzhalter. Es wird empfohlen, doppelte Anführungszeichen einzuschließen. Tag Ein Tag, das den erfassten Daten zugewiesen wird. Das Tag kann eine beliebige Zeichenfolge sein. Beschränken der Anzahl von Dateien Geben Sie die Anzahl von Dateien an, die erfasst werden können. Es werden die ersten n
Dateien erfasst, die dem Blob-Namensmuster entsprechen (bis zur angegebenen Anzahl).Warten Sie nicht, bis die Aufnahme abgeschlossen ist. Wenn diese Einstellung festgelegt ist, werden die Blobs für die Erfassung in die Warteschlange eingereiht, ohne den Erfassungsprozess zu überwachen. Ist die Einstellung nicht festgelegt, fragt LightIngest immer wieder den Erfassungsstatus ab, bis die Erfassung abgeschlossen ist. Nur ausgewählte Elemente anzeigen Listet die Dateien im Container auf, erfasst sie aber nicht. Wählen Sie "Fertig" aus, um zur Registerkarte "Quelle " zurückzukehren.
Wählen Sie optional "Dateifilter" aus, um die Daten zu filtern, um nur Dateien in einem bestimmten Ordnerpfad oder mit einer bestimmten Dateierweiterung aufzunehmen.
Standardmäßig wird eine der Dateien im Container zufällig ausgewählt und zum Generieren des Schemas für die Tabelle verwendet.
Optional können Sie unter Schemadefinitionsdatei die zu verwendende Datei angeben.
Wählen Sie die Option Weiter: Schema aus, um Ihre Tabellenspaltenkonfiguration anzuzeigen und zu bearbeiten.
Schema
Die Schemaregisterkarte bietet eine Vorschau der Daten.
Um den Befehl "LightIngest" zu generieren, wählen Sie "Weiter: Aufnahme starten" aus.
Optional:
- Ändern Sie das automatisch abgeleitete Datenformat , indem Sie im Dropdownmenü das gewünschte Format auswählen.
- Ändern Sie den automatisch abgeleiteten Zuordnungsnamen. Sie können alphanumerische Zeichen und Unterstriche verwenden. Leerzeichen, Sonderzeichen und Bindestriche werden nicht unterstützt.
- Bei Verwendung einer vorhandenen Tabelle können Sie Keep current table schema (Aktuelles Tabellenschema beibehalten) auswählen, wenn das Tabellenschema dem ausgewählten Format entspricht.
- Wählen Sie die Befehlsanzeige, um die aus Ihren Eingaben generierten automatischen Befehle anzuzeigen und zu kopieren.
- Spalten bearbeiten. Wählen Sie unter "Teildatenvorschau" die Spaltendropdownmenüs aus, um verschiedene Aspekte der Tabelle zu ändern.
Die Änderungen, die Sie an einer Tabelle vornehmen können, hängen von den folgenden Parametern ab:
- Die Tabelle ist neu oder vorhanden.
- Die Zuordnung ist neu oder vorhanden.
Tabellentyp | Zuordnungstyp | Verfügbare Anpassungen |
---|---|---|
Neue Tabelle | Neue Zuordnung | Datentyp ändern, Spalte umbenennen, Neue Spalte, Spalte löschen, Spalte aktualisieren, Aufsteigend sortieren, Absteigend sortieren |
Vorhandene Tabelle | Neue Zuordnung | Neue Spalte (auf der Sie dann datentypen, umbenennen und aktualisieren können), Spalte aktualisieren, Aufsteigend sortieren, Absteigend sortieren |
Vorhandene Zuordnung | Aufsteigend sortieren, Absteigend sortieren |
Hinweis
Wenn Sie eine neue Spalte hinzufügen oder eine Spalte aktualisieren, können Sie Zuordnungstransformationen ändern. Weitere Informationen finden Sie unter Zuordnungstransformationen.
Erfassen
Sobald der Befehl "Tabelle", "Zuordnung" und "LightIngest" mit grünen Häkchen markiert ist, aktivieren Sie oben rechts im Feld "Generiert" das Kopiersymbol, um den generierten LightIngest-Befehl zu kopieren.
Hinweis
Bei Bedarf können Sie das Tool LightIngest herunterladen, indem Sie "LightIngest herunterladen" auswählen.
Um den Aufnahmevorgang abzuschließen, müssen Sie LightIngest mit dem kopierten Befehl ausführen.