Udostępnij za pośrednictwem


Magazyn danych

Notatka

Usługa Time Series Insights zostanie wycofana 7 lipca 2024 r. Rozważ migrację istniejących środowisk do alternatywnych rozwiązań tak szybko, jak to możliwe. Aby uzyskać więcej informacji na temat wycofywania i migracji, odwiedź naszą dokumentację .

W tym artykule opisano magazyn danych w usłudze Azure Time Series Insights Gen2. Obejmuje ciepło i zimno, dostępność danych oraz najlepsze praktyki.

Udostępnianie zasobów

Podczas tworzenia środowiska usługi Azure Time Series Insights Gen2 dostępne są następujące opcje:

  • Zimny magazyn danych:
    • Utwórz nowy zasób usługi Azure Storage w subskrypcji i regionie wybranym dla danego środowiska.
    • Dołącz istniejące wcześniej konto usługi Azure Storage. Ta opcja jest dostępna tylko przez wdrożenie z szablonu usługi Azure Resource Manager i nie jest widoczne w witrynie Azure Portal.
  • Ciepły magazyn danych:
    • Ciepły magazyn jest opcjonalny i może być włączony lub wyłączony w trakcie lub po zakończeniu wdrożenia. Jeśli zdecydujesz się włączyć ciepły magazyn w późniejszym czasie i istnieją już dane w magazynie zimnym, przejrzyj tę sekcję poniżej, aby zrozumieć oczekiwane zachowanie. Czas przechowywania danych magazynu ciepłego można skonfigurować przez 7 do 31 dni, a także można je dostosować w razie potrzeby.

Gdy zdarzenie jest wczytywane, jest indeksowane zarówno w magazynie ciepłym (jeśli jest aktywowany), jak i w zimnym magazynie.

Omówienie usługi Storage

Ostrzeżenie

Jako właściciel konta usługi Azure Blob Storage, na którym znajdują się dane magazynu zimnego, masz pełny dostęp do wszystkich danych na koncie. Ten dostęp obejmuje uprawnienia do zapisu i usuwania. Nie edytuj ani nie usuwaj danych zapisywanych przez usługę Azure Time Series Insights Gen2, ponieważ mogą to spowodować utratę danych.

Dostępność danych

Azure Time Series Insights Gen2 partycjonuje i indeksuje dane w celu uzyskania optymalnej wydajności zapytań. Dane stają się dostępne do wykonywania zapytań zarówno z ciepłej (jeśli jest włączona), jak i zimnej składnicy po ich zindeksowaniu. Ilość pozyskiwanych danych i szybkość przepływności na partycję może mieć wpływ na dostępność. Przejrzyj ograniczenia przepływności źródła zdarzeń oraz najlepsze praktyki dla najlepszej wydajności. Możesz również skonfigurować alert opóźnienia , aby zostać powiadomionym, jeśli w twoim środowisku występują problemy z przetwarzaniem danych.

Ważny

Możesz doświadczyć okresu do 60 sekund, zanim dane staną się dostępne za pośrednictwem interfejsów API zapytań szeregów czasowych . Jeśli wystąpi znaczne opóźnienie przekraczające 60 sekund, prześlij bilet pomocy technicznej za pośrednictwem witryny Azure Portal.

Może wystąpić okres do 5 minut, zanim dane staną się dostępne w przypadku bezpośredniego uzyskiwania dostępu do plików Parquet poza usługą Azure Time Series Insights Gen2. Aby uzyskać więcej informacji, zobacz sekcję dotyczącą formatu pliku Parquet.

Ciepły sklep

Dane w ciepłym magazynie są dostępne tylko za pośrednictwem interfejsów API zapytań szeregów czasowych , Eksploratora Azure Time Series Insights TSI lub Łącznika Power BI . Zapytania dotyczące ciepłego magazynu są bezpłatne i nie ma limitu przydziału, ale istnieje limit 30 równoczesnych żądań.

Zachowanie ciepłego magazynu

  • Po włączeniu wszystkie dane przesyłane strumieniowo do środowiska będą kierowane do ciepłego magazynu, niezależnie od znacznika czasu zdarzenia. Należy pamiętać, że potok pozyskiwania przesyłania strumieniowego jest tworzony na potrzeby przesyłania strumieniowego niemal w czasie rzeczywistym, a pozyskiwanie zdarzeń historycznych nie jest nieobsługiwane.

  • Okres przechowywania jest obliczany na podstawie czasu indeksowania zdarzenia w ciepłym przechowalniku, a nie znacznika czasu zdarzenia. Oznacza to, że dane nie są już dostępne w ciepłym magazynie po upływie okresu przechowywania, nawet jeśli znacznik czasowy zdarzenia dotyczy przyszłości.

    • Przykład: zdarzenie z 10-dniowymi prognozami pogody jest pozyskiwane i indeksowane w ciepłym kontenerze magazynu skonfigurowanym z 7-dniowym okresem przechowywania. Po siedmiu dniach przewidywanie nie jest już dostępne w ciepłym sklepie, ale może być odpytywane z zimnego.
  • Jeśli włączysz magazyn danych w istniejącym środowisku, które ma już niedawno zindeksowane dane w magazynie zimnym, pamiętaj, że magazyn danych nie zostanie uzupełniony tymi danymi.

  • Jeśli dopiero co włączyłeś ciepły magazyn i masz problemy z wyświetlaniem najnowszych danych w Eksploratorze, możesz tymczasowo wyłączać zapytania do ciepłego magazynu.

    Wyłącz zapytania rozgrzane

Zimny magazyn

W tej sekcji opisano szczegóły usługi Azure Storage dotyczące usługi Azure Time Series Insights Gen2.

Aby uzyskać szczegółowy opis usługi Azure Blob Storage, przeczytaj wprowadzenie do obiektów blob usługi Storage.

Konto magazynowania w chłodni

Usługa Azure Time Series Insights Gen2 zachowuje maksymalnie dwie kopie każdego zdarzenia na koncie usługi Azure Storage. Jedna kopia przechowuje zdarzenia uporządkowane według czasu pozyskiwania, zawsze zezwalając na dostęp do zdarzeń w kolejności uporządkowanej czasowo. Z czasem usługa Azure Time Series Insights Gen2 tworzy również ponownie partycjonowaną kopię danych, aby zoptymalizować je pod kątem wydajnych zapytań.

Wszystkie dane są przechowywane przez czas nieokreślony na koncie usługi Azure Storage.

Ostrzeżenie

Nie ograniczaj publicznego dostępu do Internetu do konta magazynu używanego przez usługę Time Series Insights lub wymagane połączenie zostanie przerwane.

Pisanie i edytowanie obiektów danych typu blob

Aby zapewnić wydajność zapytań i dostępność danych, nie edytuj ani nie usuwaj żadnych obiektów blob tworzonych przez usługę Azure Time Series Insights Gen2.

Uzyskiwanie dostępu do danych chłodni

Oprócz uzyskiwania dostępu do danych z Eksploratora Usługi Azure Time Series Insights i API zapytań szeregów czasowych , możesz również chcieć uzyskać dostęp do danych bezpośrednio z plików Parquet przechowywanych w zimnym magazynie. Możesz na przykład odczytywać, przekształcać i czyścić dane w notesie Jupyter, a następnie używać go do trenowania modelu usługi Azure Machine Learning w tym samym przepływie pracy platformy Spark.

Aby uzyskać dostęp do danych bezpośrednio z konta usługi Azure Storage, musisz mieć dostęp do odczytu do konta używanego do przechowywania danych usługi Azure Time Series Insights Gen2. Następnie możesz odczytać wybrane dane na podstawie czasu utworzenia pliku Parquet znajdującego się w folderze PT=Time opisanym poniżej w sekcji dotyczącej formatu pliku Parquet . Aby uzyskać więcej informacji na temat włączania dostępu do odczytu do konta przechowywania, zobacz Zarządzanie dostępem do zasobów konta przechowywania.

Usuwanie danych

Nie usuwaj plików usługi Azure Time Series Insights Gen2. Zarządzaj powiązanymi danymi tylko z poziomu usługi Azure Time Series Insights Gen2.

Format pliku Parquet i struktura katalogów

Parquet to format pliku kolumnowego typu open source zaprojektowany pod kątem wydajnego przechowywania i wydajności. Usługa Azure Time Series Insights Gen2 używa Parquet do umożliwienia wydajności zapytań opartych na identyfikatorach szeregów czasowych na dużą skalę.

Aby uzyskać więcej informacji na temat typu pliku Parquet, zapoznaj się z dokumentacją Parquet.

Usługa Azure Time Series Insights Gen2 przechowuje kopie danych w następujący sposób:

  • Folder PT=Time jest partycjonowany przez czas wczytywania i przechowuje dane mniej więcej w kolejności przybycia. Te dane są zachowywane wraz z upływem czasu i można uzyskiwać do niej bezpośredni dostęp spoza usługi Azure Time Series Insight Gen2, na przykład z notesów platformy Spark. Sygnatura czasowa <YYYYMMDDHHMMSSfff> odpowiada czasowi pozyskiwania danych. <MinEventTimeStamp> i <MaxEventTimeStamp> odpowiadają zakresowi sygnatur czasowych zdarzeń zawartych w pliku. Ścieżka i nazwa pliku są sformatowane jako:

    V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet

  • Foldery PT=Live i PT=Tsid zawierają drugą kopię danych, ponownie partycjonowaną na potrzeby wydajności zapytań szeregów czasowych na dużą skalę. Te dane są optymalizowane w czasie i nie są statyczne. Podczas ponownego partycjonowania niektóre zdarzenia mogą występować w wielu blobach, a nazwy blobów mogą ulec zmianie. Te foldery są używane przez usługę Azure Time Series Insights Gen2 i nie powinny być dostępne bezpośrednio; w tym celu należy używać tylko PT=Time.

Notatka

Dane w folderze PT=Time sprzed czerwca 2021 r. mogą mieć format nazwy pliku bez zakresów czasu zdarzenia: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. Format pliku wewnętrznego jest taki sam, a pliki z obydwoma schematami nazewnictwa można używać razem.

  • <YYYY> odpowiada czterocyfrowej reprezentacji roku.
  • <MM> mapuje na dwucyfrową reprezentację miesiąca.
  • Format <YYYYMMDDHHMMSSfff> znaczników czasowych odpowiada czterocyfrowemu rokowi (YYYY), dwucyfrowemu miesiącowi (MM), dwucyfrowemu dniowi (DD), dwucyfrowej godzinie (HH), dwucyfrowej minucie (MM), dwucyfrowej sekundzie (SS) i trzycyfrowej milisekundzie (fff).

Zdarzenia usługi Azure Time Series Insights Gen2 są mapowane na zawartość pliku Parquet w następujący sposób:

  • Każde wydarzenie jest przypisane do jednego wiersza.
  • Każdy wiersz zawiera kolumnę z sygnaturą czasową zdarzenia. Właściwość sygnatury czasowej nigdy nie ma wartości null. Jeśli właściwość sygnatury czasowej nie jest określona w źródle zdarzeń, domyślnie ustawiane jest na czas wstawienia zdarzenia w kolejkę. Przechowywana sygnatura czasowa jest zawsze w formacie UTC.
  • Każdy wiersz zawiera kolumny identyfikatorów szeregów czasowych (TSID) zgodnie z definicją podczas tworzenia środowiska usługi Azure Time Series Insights Gen2. Nazwa właściwości TSID zawiera sufiks _string.
  • Wszystkie inne właściwości wysyłane jako dane telemetryczne są mapowane na nazwy kolumn, które kończą się _bool (wartość logiczna), _datetime (sygnatura czasowa), _long (długa), _double (podwójna), _string (ciąg) lub _dynamic (dynamiczny) w zależności od typu właściwości. Aby uzyskać więcej informacji, przeczytaj o Obsługiwanych typach danych.
  • Ten schemat mapowania ma zastosowanie do pierwszej wersji formatu pliku, o nazwie V=1i przechowywanej w folderze podstawowym o tej samej nazwie. W miarę rozwoju tej funkcji schemat mapowania może się zmienić, a nazwa odwołania zostanie zwiększona.

Następne kroki