Datenspeicher
Anmerkung
Der Time Series Insights-Dienst wird am 7. Juli 2024 eingestellt. Erwägen Sie, vorhandene Umgebungen so schnell wie möglich zu alternativen Lösungen zu migrieren. Weitere Informationen zum Veraltungsprozess und zur Migration finden Sie in unserer -Dokumentation.
In diesem Artikel wird die Datenspeicherung in Azure Time Series Insights Gen2 beschrieben. Es behandelt warme und kalte Bedingungen, Datenverfügbarkeit und bewährte Praktiken.
Bereitstellung
Wenn Sie eine Azure Time Series Insights Gen2-Umgebung erstellen, haben Sie die folgenden Optionen:
- Kaltdatenspeicher:
- Erstellen Sie eine neue Azure Storage-Ressource im Abonnement und in der Region, die Sie für Ihre Umgebung ausgewählt haben.
- Fügen Sie ein bereits vorhandenes Azure Storage-Konto an. Diese Option ist nur verfügbar, indem sie aus einer Azure Resource Manager-Vorlagebereitgestellt wird und im Azure-Portal nicht sichtbar ist.
- Warmer Datenspeicher:
- Ein warmer Speicher ist optional und kann während oder nach dem Bereitstellungsprozess aktiviert oder deaktiviert werden. Wenn Sie zu einem späteren Zeitpunkt einen warmen Speicher aktivieren und bereits Daten in Ihrem Kaltspeicher vorhanden sind, lesen Sie diesem abschnitt weiter unten, um das erwartete Verhalten zu verstehen. Die Datenaufbewahrungszeit für Warm-Speicher-Daten kann für 7 bis 31 Tage konfiguriert werden und kann bei Bedarf angepasst werden.
Wenn ein Ereignis aufgenommen wird, wird es sowohl im warmen Speicher (sofern aktiviert) als auch im Kaltspeicher indiziert.
Warnung
Als Besitzer des Azure Blob Storage-Kontos, in dem sich Cold Store-Daten befinden, haben Sie vollzugriff auf alle Daten im Konto. Dieser Zugriff umfasst Schreib- und Löschberechtigungen. Bearbeiten oder löschen Sie nicht die Daten, die Azure Time Series Insights Gen2 schreibt, da dies zu Datenverlust führen kann.
Datenverfügbarkeit
Azure Time Series Insights Gen2 partitioniert und indiziert Daten für eine optimale Abfrageleistung. Daten stehen nach der Indizierung zur Verfügung, um sowohl aus dem Warm- (falls aktiviert) als auch aus dem Kaltspeicher abgefragt zu werden. Die Datenmenge, die aufgenommen wird, und die Durchsatzrate pro Partition kann sich auf die Verfügbarkeit auswirken. Überprüfen Sie die Durchsatzbeschränkungen und bewährte Methoden für eine optimale Leistung. Sie können auch eine Verzögerung Warnung konfigurieren, benachrichtigt werden soll, wenn in Ihrer Umgebung Probleme beim Verarbeiten von Daten auftreten.
Wichtig
Sie können einen Zeitraum von bis zu 60 Sekunden erleben, bevor Daten über die Zeitreihenabfrage-APIsverfügbar werden. Wenn Sie eine erhebliche Latenz über 60 Sekunden haben, übermitteln Sie bitte ein Supportticket über das Azure-Portal.
Es kann bis zu 5 Minuten dauern, bevor Daten verfügbar sind, wenn Sie direkt auf die Parquet-Dateien außerhalb von Azure Time Series Insights Gen2 zugreifen. Weitere Informationen finden Sie im Parkettdateiformat Abschnitt.
Warmer Laden
Daten in Ihrem Warm Storage sind nur über die Zeitreihen-Abfrage-APIs, den Azure Time Series Insights TSI Exploreroder den Power BI Connectorverfügbar. Abfragen des Warm Stores sind kostenlos und es gibt kein Kontingent, aber es gibt eine Grenze von 30 gleichzeitigen Anfragen.
Verhalten des Warmspeichers
Wenn diese Option aktiviert ist, werden alle daten, die in Ihre Umgebung gestreamt wurden, unabhängig vom Ereigniszeitstempel an Ihren warmen Speicher weitergeleitet. Beachten Sie, dass die Streaming-Aufnahmepipeline für Nah-Echtzeit-Streaming und das Aufnehmen historischer Ereignisse nicht unterstützt wird.
Der Aufbewahrungszeitraum wird basierend auf dem Zeitpunkt berechnet, zu dem das Ereignis im Warmspeicher indiziert wurde, und nicht basierend auf dem Ereigniszeitstempel. Dies bedeutet, dass Daten nach Ablauf des Aufbewahrungszeitraums nicht mehr im warmen Speicher verfügbar sind, auch wenn der Ereigniszeitstempel für die Zukunft gilt.
- Beispiel: Ein Ereignis mit 10-Tage-Wettervorhersagen wird in einem Warmspeichercontainer aufgenommen und indiziert, der mit einem Aufbewahrungszeitraum von 7 Tagen konfiguriert ist. Nach sieben Tagen ist die Vorhersage nicht mehr im warmen Speicher zugänglich, kann aber von Kälte abgefragt werden.
Wenn Sie den Warmspeicher in einer vorhandenen Umgebung aktivieren, in der bereits aktuelle Daten im Kaltspeicher indiziert sind, beachten Sie, dass Ihr warmer Speicher nicht mit diesen Daten wieder gefüllt wird.
Wenn Sie gerade den warmen Speicher aktiviert haben und Probleme beim Anzeigen Ihrer aktuellen Daten im Explorer-Programm auftreten sollten, können Sie die Abfragen des warmen Speichers vorübergehend deaktivieren.
Kaltspeicher
In diesem Abschnitt werden Azure Storage-Details beschrieben, die für Azure Time Series Insights Gen2 relevant sind.
Eine ausführliche Beschreibung von Azure Blob Storage finden Sie in der Einführung Storage Blobs.
Ihr Kaltspeicherkonto
Azure Time Series Insights Gen2 behält bis zu zwei Kopien jedes Ereignisses in Ihrem Azure Storage-Konto bei. Eine Kopie speichert Ereignisse, die nach Erfassungszeit sortiert sind, und ermöglicht immer den Zugriff auf Ereignisse in einer zeitgeordneten Sequenz. Im Laufe der Zeit erstellt Azure Time Series Insights Gen2 auch eine neu partitionierte Kopie der Daten, um sie für performante Abfragen zu optimieren.
Alle Ihre Daten werden unbegrenzt in Ihrem Azure Storage-Konto gespeichert.
Warnung
Beschränken Sie den öffentlichen Internetzugriff auf das Speicherkonto, das von Time Series Insights verwendet wird, nicht, da sonst die erforderliche Verbindung unterbrochen wird.
Schreiben und Bearbeiten von Blobs
Um die Verfügbarkeit von Abfragen und Daten sicherzustellen, bearbeiten oder löschen Sie keine Blobs, die Von Azure Time Series Insights Gen2 erstellt werden.
Zugreifen auf Kaltspeicherdaten
Zusätzlich zum Zugriff auf Ihre Daten aus dem Azure Time Series Insights-Explorer und den Time Series Query APIsmöchten Sie möglicherweise auch direkt auf die in Parquet-Dateien im Kaltspeicher gespeicherten Daten zugreifen. Sie können beispielsweise Daten in einem Jupyter-Notizbuch lesen, transformieren und bereinigen und dann verwenden, um Ihr Azure Machine Learning-Modell im gleichen Spark-Workflow zu trainieren.
Um direkt über Ihr Azure Storage-Konto auf Daten zuzugreifen, benötigen Sie Lesezugriff auf das Konto, mit dem Ihre Azure Time Series Insights Gen2-Daten gespeichert werden. Anschließend können Sie ausgewählte Daten basierend auf der Erstellungszeit der Im PT=Time
Ordner beschriebenen PT=Time
Ordners im Parkettdateiformat Abschnitt lesen. Weitere Informationen zum Aktivieren des Lesezugriffs auf Ihr Speicherkonto finden Sie unter Verwalten des Zugriffs auf Ihre Speicherkontoressourcen.
Löschen von Daten
Löschen Sie ihre Azure Time Series Insights Gen2-Dateien nicht. Verwalten Sie verwandte Daten nur in Azure Time Series Insights Gen2.
Parquet-Dateiformat und Ordnerstruktur
Parquet ist ein Open-Source-Spaltenformat, das für eine effiziente Speicherung und Leistungsfähigkeit ausgelegt ist. Azure Time Series Insights Gen2 verwendet Parquet, um die Abfrageleistung basierend auf Zeitreihen-IDs in großem Umfang zu ermöglichen.
Weitere Informationen zum Parquet-Dateityp finden Sie in der Parquet-Dokumentation.
Azure Time Series Insights Gen2 speichert Kopien Ihrer Daten wie folgt:
Der Ordner
PT=Time
wird nach Aufnahmezeit partitioniert und speichert Daten ungefähr in der Reihenfolge ihres Eingangs. Diese Daten bleiben im Laufe der Zeit erhalten, und Sie können direkt von außerhalb von Azure Time Series Insight Gen2, z. B. aus Ihren Spark-Notizbüchern, darauf zugreifen. Der Zeitstempel<YYYYMMDDHHMMSSfff>
entspricht der Aufnahmezeit der Daten. Die<MinEventTimeStamp>
und<MaxEventTimeStamp>
entsprechen dem Bereich von Ereigniszeitstempeln, die in der Datei enthalten sind. Der Pfad und der Dateiname sind wie folgt formatiert:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Die Ordner
PT=Live
undPT=Tsid
enthalten eine zweite Kopie Ihrer Daten, neu partitioniert für die Leistung von Zeitreihenabfragen in großem Maßstab. Diese Daten werden im Laufe der Zeit optimiert und sind nicht statisch. Während der Neupartitionierung können einige Ereignisse in mehreren Blobs vorhanden sein, und die Blobnamen können sich ändern. Diese Ordner werden von Azure Time Series Insights Gen2 verwendet und sollten nicht direkt darauf zugegriffen werden. Sie solltenPT=Time
nur zu diesem Zweck verwenden.
Anmerkung
Daten im Ordner PT=Time
vor Juni 2021 können ein Dateinamenformat ohne Ereigniszeitbereiche aufweisen: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. Das interne Dateiformat ist identisch, und Dateien mit beiden Benennungsschemas können zusammen verwendet werden.
-
<YYYY>
wird einer vierstelligen Jahresdarstellung zugeordnet. -
<MM>
entspricht einer zweistelligen Monatsdarstellung. - Das
<YYYYMMDDHHMMSSfff>
-Format der Zeitstempel wird einem vierstelligen Jahr (YYYY
), einem zweistelligen Monat (MM
), einem zweistelligen Tag (DD
), einer zweistelligen Stunde (HH
), einer zweistelligen Minute (MM
), einer zweistelligen Sekunde (SS
) und einer dreistelligen Millisekunde (fff
) zugeordnet.
Azure Time Series Insights Gen2-Ereignisse werden den Inhalten von Parquet-Dateien wie folgt zugeordnet:
- Jedes Ereignis wird einer einzelnen Zeile zugeordnet.
- Jede Zeile enthält den Zeitstempel Spalte mit einem Ereigniszeitstempel. Die Zeitstempeleigenschaft ist nie NULL. Standardmäßig wird die ereignisverqueuierte Zeit, wenn die Zeitstempeleigenschaft nicht in der Ereignisquelle angegeben ist. Der gespeicherte Zeitstempel befindet sich immer in UTC.
- Jede Zeile enthält die Spalte(n) "Time Series ID (TSID)", die definiert wurden, als die Azure Time Series Insights Gen2-Umgebung erstellt wurde. Der Name der TSID-Eigenschaft enthält das Suffix
_string
. - Alle anderen als Telemetriedaten gesendeten Eigenschaften werden Spaltennamen zugeordnet, die mit
_bool
(boolean),_datetime
(Zeitstempel),_long
(lang),_double
(double),_string
(Zeichenfolge) oder_dynamic
(dynamisch) enden, je nach Eigenschaftstyp. Weitere Informationen finden Sie unter unterstützte Datentypen. - Dieses Zuordnungsschema gilt für die erste Version des Dateiformats, auf die als V=1verwiesen wird und im Basisordner desselben Namens gespeichert ist. Da sich dieses Feature weiterentwickelt, kann sich dieses Zuordnungsschema ändern und der Referenzname inkrementiert werden.
Nächste Schritte
Erfahren Sie mehr zur Datenmodellierung.
Planen Sie Ihre Azure Time Series Insights Gen2-Umgebung.