Úložiště dat
Poznámka
Služba Time Series Insights bude vyřazena 7. července 2024. Zvažte migraci stávajících prostředí na alternativní řešení co nejdříve. Další informace o vyřazení a migraci najdete v naší dokumentaci.
Tento článek popisuje úložiště dat v Azure Time Series Insights Gen2. Zahrnuje teplé a studené, dostupnost dat a osvědčené postupy.
Zajišťování
Při vytváření prostředí Azure Time Series Insights Gen2 máte následující možnosti:
- Studené úložiště dat:
- Vytvořte nový prostředek Azure Storage v předplatném a regionu, které jste pro své prostředí zvolili.
- Připojte existující účet Azure Storage. Tato možnost je dostupná pouze nasazením ze šablony Azure Resource Managerua na webu Azure Portal se nezobrazuje.
- Teplé úložiště dat:
- Teplé úložiště je volitelné a během zřizování nebo po jeho zřízení je možné ho povolit nebo zakázat. Pokud se později rozhodnete povolit teplé úložiště a ve vašem studeném úložišti už jsou data, projděte si níže uvedené části, abyste porozuměli očekávanému chování. Dobu uchovávání dat teplého úložiště je možné nakonfigurovat po dobu 7 až 31 dnů a dá se upravit také podle potřeby.
Když se událost ingestuje, indexuje se v teplém úložišti (pokud je povoleno) i ve studeném úložišti.
Varování
Jako vlastník účtu úložiště objektů blob v Azure, kde se nacházejí data studeného úložiště, máte úplný přístup ke všem datům v účtu. Tento přístup zahrnuje oprávnění k zápisu a odstranění. Neupravujte ani neodstraňovat data, která Azure Time Series Insights Gen2 zapisuje, protože to může způsobit ztrátu dat.
Dostupnost dat
Azure Time Series Insights Gen2 rozděluje a indexuje data pro optimální výkon dotazů. Data budou k dispozici pro dotaz z teplého (pokud jsou povolená) i z studeného úložiště po jejich indexování. Objem přijatých dat a propustnost jednotlivých oddílů mohou ovlivnit dostupnost. Projděte si omezení propustnosti zdroje událostí a osvědčené postupy pro dosažení nejlepšího výkonu. Můžete také nakonfigurovat výstrahu typu prodlevy a být upozorněni, pokud ve vašem prostředí dochází k problémům se zpracováním dat.
Důležitý
Může docházet k období až 60 sekund, než budou data dostupná prostřednictvím rozhraní API dotazů časové řady . Pokud zaznamenáte významnou latenci přesahující 60 sekund, zašlete žádost o podporu prostřednictvím portálu Azure.
Při přímém přístupu k souborům Parquet mimo Azure Time Series Insights Gen2 může docházet k období až 5 minut, než budou data k dispozici. Další informace najdete v sekci formátu souboru Parquet.
Teplé úložiště
Data ve vašem teplém úložišti jsou k dispozici pouze prostřednictvím rozhraní API dotazů časové řady, průzkumníka Azure Time Series Insights TSInebo konektoru Power BI. Dotazy v teplém úložišti jsou zdarma a neexistuje žádná kvóta, ale existuje limit 30 souběžných požadavků.
Chování teplého úložiště
Pokud je tato možnost povolená, budou všechna data streamovaná do vašeho prostředí směrována do vašeho teplého úložiště bez ohledu na časové razítko události. Všimněte si, že kanál příjmu dat streamování je vytvořený pro streamování téměř v reálném čase a ingestování historických událostí se nepodporuje.
Doba uchovávání se vypočítá na základě toho, kdy byla událost zaindexována ve vyhřívaném úložišti, nikoli na časovém razítku události. To znamená, že data už nejsou dostupná v teplém úložišti po uplynutí doby uchovávání, i když je časové razítko události pro budoucnost.
- Příklad: událost s 10denními předpověďmi počasí se ingestuje a indexuje v kontejneru teplého úložiště nakonfigurovaného se 7denní dobou uchovávání. Po sedmi dnech už není predikce přístupná v teplém úložišti, ale může být dostupná z chladného úložiště.
Pokud povolíte teplé úložiště v existujícím prostředí, které už má nedávno indexovaná data v studeném úložišti, mějte na paměti, že vaše teplé úložiště nebude znovu vyplněno daty.
Pokud jste právě povolili warm store a dochází k problémům se zobrazením nedávných dat v Exploreru, můžete dočasně vypnout dotazy warm store:
Studené úložiště
Tato část popisuje podrobnosti o službě Azure Storage, které jsou relevantní pro Azure Time Series Insights Gen2.
Pro podrobný popis služby Azure Blob Storage si přečtěte úvod ke službě
Váš účet studeného úložiště
Azure Time Series Insights Gen2 uchovává až dvě kopie každé události ve vašem účtu Azure Storage. Jedna kopie ukládá události seřazené podle času příjmu dat, takže vždy umožňuje přístup k událostem v pořadí podle času. Azure Time Series Insights Gen2 také časem vytvoří přerozdělenou kopii dat pro optimalizaci výkonných dotazů.
Všechna vaše data se ukládají do vašeho účtu Azure Storage neomezeně dlouho.
Varování
Neomezujte přístup z veřejného internetu k účtu úložiště používanému službou Time Series Insights, jinak bude přerušeno potřebné připojení.
Psaní a editace blobů
Pokud chcete zajistit výkon dotazů a dostupnost dat, neupravujte ani neodstraňovat žádné objekty blob, které Azure Time Series Insights Gen2 vytváří.
Přístup k datům studeného úložiště
Kromě přístupu k datům z Průzkumníka služby Azure Time Series Insights a rozhraní API dotazů časových řadmůžete také chtít přistupovat k datům přímo ze souborů Parquet uložených v studeném úložišti. Můžete například číst, transformovat a vyčistit data v poznámkovém bloku Jupyter a pak je použít k trénování modelu Azure Machine Learning ve stejném pracovním postupu Sparku.
Pokud chcete získat přístup k datům přímo z účtu Azure Storage, potřebujete ke účtu, který se používá k ukládání dat Azure Time Series Insights Gen2, přístup pro čtení. Poté můžete číst vybraná data podle času vytvoření souboru Parquet, který je umístěn ve složce PT=Time
a je popsán níže v oddílu o formátu souboru Parquet . Další informace o povolení přístupu pro čtení k účtu úložiště najdete v tématu Správa přístupu k prostředkům účtu úložiště.
Odstranění dat
Neodstraňovat soubory Azure Time Series Insights Gen2 Správa souvisejících dat pouze z Azure Time Series Insights Gen2
Formát souborů Parquet a struktura složek
Parquet je opensourcový formát sloupcového souboru navržený pro efektivní ukládání a výkon. Azure Time Series Insights Gen2 používá Parquet k povolení výkonu dotazů založených na ID časové řady ve velkém měřítku.
Další informace o typu souboru Parquet naleznete v dokumentaci Parquet.
Azure Time Series Insights Gen2 ukládá kopie vašich dat následujícím způsobem:
Složka
PT=Time
je rozdělena podle času příjmu dat a ukládá data zhruba v pořadí od doručení. Tato data se v průběhu času zachovají a můžete k nim přistupovat přímo z prostředí mimo Azure Time Series Insight Gen2, například z poznámkových bloků Sparku. Časové razítko<YYYYMMDDHHMMSSfff>
odpovídá času příjmu dat.<MinEventTimeStamp>
a<MaxEventTimeStamp>
odpovídají rozsahu časových razítek událostí obsažených v souboru. Cesta a název souboru jsou formátovány takto:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Složky
PT=Live
aPT=Tsid
obsahují druhou kopii dat přerozdělených pro zlepšení výkonu dotazů na časové řady ve velkém měřítku. Tato data jsou v průběhu času optimalizovaná a nejsou statická. Během přerozdělování mohou být některé události přítomné v několika blozích a jejich názvy se mohou změnit. Tyto složky používají Azure Time Series Insights Gen2 a neměly by být přístupné přímo; pro tento účel byste měli používat pouzePT=Time
.
Poznámka
Data ve složce PT=Time
od června 2021 mohou mít formát názvu souboru bez časových rozsahů událostí: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. Interní formát souboru je stejný a soubory s oběma schématy pojmenování lze použít společně.
-
<YYYY>
se mapuje na čtyřciferný formát roku. -
<MM>
představuje dvouciferné vyjádření měsíce. - Formát
<YYYYMMDDHHMMSSfff>
časových razítek se mapuje na čtyřciferný rok (YYYY
), dvouciferný měsíc (MM
), dvouciferný den (DD
), dvoucifernou hodinu (HH
), dvoucifernou minutu (MM
), dvoucifernou sekundu (SS
) a tříciferné milisekundy (fff
).
Události Azure Time Series Insights Gen2 se mapují na obsah souboru Parquet následujícím způsobem:
- Každá událost se mapuje na jeden řádek.
- Každý řádek obsahuje časové razítko sloupce s časovým razítkem události. Vlastnost časového razítka není nikdy nulová. Pokud vlastnost časového razítka není zadána ve zdroji události, použije se ve výchozím nastavení čas zařazení do fronty události jako. Uložené časové razítko je vždy ve standardu UTC.
- Každý řádek obsahuje sloupce ID časové řady (TSID) definované při vytváření prostředí Azure Time Series Insights Gen2. Název vlastnosti TSID zahrnuje příponu
_string
. - Všechny ostatní vlastnosti odeslané jako telemetrická data se mapují na názvy sloupců, které končí
_bool
(logická hodnota),_datetime
(časové razítko),_long
(long),_double
(double),_string
(řetězec) nebo_dynamic
(dynamický) v závislosti na typu vlastnosti. Další informace najdete o podporovaných datových typech. - Toto schéma mapování platí pro první verzi formátu souboru, na který odkazuje V=1a uložená v základní složce se stejným názvem. Jak se tato funkce vyvíjí, může se toto schéma mapování změnit a referenční název může být zvýšen.
Další kroky
Naplánujte prostředí Azure Time Series Insights Gen2.