Datalagring

Artikel
06/03/2024

Kommentar

Time Series Insights-tjänsten dras tillbaka den 7 juli 2024. Överväg att migrera befintliga miljöer till alternativa lösningar så snart som möjligt. Mer information om utfasning och migrering finns i vår dokumentation.

Den här artikeln beskriver datalagring i Azure Time Series Insights Gen2. Den omfattar varm och kall, datatillgänglighet och metodtips.

Etablerar

När du skapar en Azure Time Series Insights Gen2-miljö har du följande alternativ:

Lagring av kalla data:
- Skapa en ny Azure Storage-resurs i den prenumeration och region som du har valt för din miljö.
- Koppla ett befintligt Azure Storage-konto. Det här alternativet är bara tillgängligt genom att distribuera från en Azure Resource Manager-mall och visas inte i Azure Portal.
Varm datalagring:
- Ett varmt lager är valfritt och kan aktiveras eller inaktiveras under eller efter etableringen. Om du bestämmer dig för att aktivera ett varmt lager vid ett senare tillfälle och det redan finns data i ditt kyllager kan du läsa det här avsnittet nedan för att förstå det förväntade beteendet. Den varma lagringstiden för datakvarhållning kan konfigureras i 7 till 31 dagar, och detta kan också justeras efter behov.

När en händelse matas in indexeras den både i det varma arkivet (om den är aktiverad) och i kalllager.

Varning

Som ägare till Azure Blob Storage-kontot där kalllagerdata finns har du fullständig åtkomst till alla data i kontot. Den här åtkomsten omfattar skriv- och borttagningsbehörigheter. Redigera eller ta inte bort data som Azure Time Series Insights Gen2 skriver eftersom det kan orsaka dataförlust.

Datatillgänglighet

Azure Time Series Insights Gen2-partitioner och indexerar data för optimal frågeprestanda. Data blir tillgängliga för frågor från både varmt (om aktiverat) och kalllager när det har indexerats. Mängden data som matas in och dataflödesfrekvensen per partition kan påverka tillgängligheten. Granska begränsningarna för händelsekällans dataflöde och metodtips för bästa prestanda. Du kan också konfigurera en fördröjningsavisering så att den meddelas om din miljö har problem med att bearbeta data.

Viktigt!

Du kan uppleva en period på upp till 60 sekunder innan data blir tillgängliga via Time Series Query-API:erna. Om du får längre svarstider än 60 sekunder skickar du ett supportärende via Azure Portal.

Du kan uppleva en period på upp till 5 minuter innan data blir tillgängliga när du kommer åt Parquet-filerna direkt utanför Azure Time Series Insights Gen2. Mer information finns i avsnittet Parquet-filformat .

Varm lagring

Data i ditt varma lager är endast tillgängliga via Time Series Query-API:er, Azure Time Series Insights TSI Explorer eller Power BI Connector. Frågor om varm lagring är kostnadsfria och det finns ingen kvot, men det finns en gräns på 30 samtidiga begäranden.

Beteende för varm lagring

När det är aktiverat dirigeras alla data som strömmas till din miljö till ditt varma lager, oavsett händelsetidsstämpel. Observera att pipelinen för strömmande inmatning är byggd för direktuppspelning i nära realtid och att inmatning av historiska händelser inte stöds.
Kvarhållningsperioden beräknas baserat på när händelsen indexerades i ett varmt lager, inte tidsstämpeln för händelsen. Det innebär att data inte längre är tillgängliga i ett varmt lager efter att kvarhållningsperioden har förflutit, även om tidsstämpeln för händelsen är för framtiden.
- Exempel: en händelse med 10 dagars väderprognoser matas in och indexeras i en varm lagringscontainer som konfigurerats med en kvarhållningsperiod på 7 dagar. Efter sju dagar är förutsägelsen inte längre tillgänglig i det varma arkivet, men kan efterfrågas från kyla.
Om du aktiverar varmt lager i en befintlig miljö som redan har nyligen indexerade data i kall lagring bör du tänka på att ditt varma lager inte fylls i igen med dessa data.
Om du precis har aktiverat ett varmt lager och har problem med att visa dina senaste data i Utforskaren kan du tillfälligt inaktivera frågor för varm lagring:

Kall lagring

I det här avsnittet beskrivs Azure Storage-information som är relevant för Azure Time Series Insights Gen2.

En grundlig beskrivning av Azure Blob Storage finns i introduktionen till Lagringsblobar.

Ditt cold storage-konto

Azure Time Series Insights Gen2 behåller upp till två kopior av varje händelse i ditt Azure Storage-konto. En kopia lagrar händelser ordnade efter inmatningstid, vilket alltid ger åtkomst till händelser i en tidsbeställd sekvens. Med tiden skapar Azure Time Series Insights Gen2 också en ompartitionerad kopia av data för att optimera för högpresterande frågor.

Alla dina data lagras på obestämd tid i ditt Azure Storage-konto.

Varning

Begränsa inte offentlig Internetåtkomst till lagringskontot som används av Time Series Insights, annars bryts den nödvändiga anslutningen.

Skriva och redigera blobar

För att säkerställa frågeprestanda och datatillgänglighet ska du inte redigera eller ta bort några blobar som Azure Time Series Insights Gen2 skapar.

Åtkomst till kalllagerdata

Förutom att komma åt dina data från Azure Time Series Insights Explorer och Time Series Query-API:er kanske du också vill komma åt dina data direkt från Parquet-filerna som lagras i det kalla arkivet. Du kan till exempel läsa, transformera och rensa data i en Jupyter-anteckningsbok och sedan använda den för att träna din Azure Machine Learning-modell i samma Spark-arbetsflöde.

För att komma åt data direkt från ditt Azure Storage-konto behöver du läsbehörighet till det konto som används för att lagra dina Azure Time Series Insights Gen2-data. Du kan sedan läsa valda data baserat på skapandetiden för Parquet-filen som finns i PT=Time mappen som beskrivs nedan i avsnittet Parquet-filformat . Mer information om hur du aktiverar läsåtkomst till ditt lagringskonto finns i Hantera åtkomst till dina lagringskontoresurser.

Databorttagning

Ta inte bort dina Azure Time Series Insights Gen2-filer. Hantera relaterade data inifrån Endast Azure Time Series Insights Gen2.

Parquet-filformat och mappstruktur

Parquet är ett kolumnformat med öppen källkod som utformats för effektiv lagring och prestanda. Azure Time Series Insights Gen2 använder Parquet för att aktivera Time Series ID-baserade frågeprestanda i stor skala.

Mer information om filtypen Parquet finns i Parquet-dokumentationen.

Azure Time Series Insights Gen2 lagrar kopior av dina data enligt följande:

Mappen PT=Time partitioneras efter inmatningstid och lagrar data ungefär efter ankomst. Dessa data bevaras över tid och du kan komma åt dem direkt utanför Azure Time Series Insight Gen2, till exempel från dina Spark-anteckningsböcker. Tidsstämpeln <YYYYMMDDHHMMSSfff> motsvarar datainmatningstiden. Och <MinEventTimeStamp> <MaxEventTimeStamp> motsvarar intervallet för händelsetidsstämplar som ingår i filen. Sökvägen och filnamnet formateras som:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Mapparna PT=Live och PT=Tsid innehåller en andra kopia av dina data, ompartitionerade för frågeprestanda i tidsserier i stor skala. Dessa data är optimerade över tid och är inte statiska. Under ompartitioneringen kan vissa händelser finnas i flera blobar och blobnamnen kan ändras. Dessa mappar används av Azure Time Series Insights Gen2 och bör inte nås direkt. du bör endast använda PT=Time för det ändamålet.

Kommentar

Data i PT=Time mappen från före juni 2021 kan ha ett filnamnsformat utan händelsetidsintervall: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. Det interna filformatet är detsamma och filer med båda namngivningsschemana kan användas tillsammans.

<YYYY> mappar till en fyrsiffrig årsrepresentation.
<MM> mappar till en tvåsiffrig månadsrepresentation.
Formatet <YYYYMMDDHHMMSSfff> för tidsstämplarna mappas till ett fyrsiffrigt år (YYYY), tvåsiffrig månad (MM), tvåsiffrig dag (DD), tvåsiffrig timme (HH), tvåsiffrig minut (MM), tvåsiffrig sekund (SS) och tresiffrig millisekunder (fff).

Azure Time Series Insights Gen2-händelser mappas till Parquet-filinnehåll på följande sätt:

Varje händelse mappas till en enda rad.
Varje rad innehåller tidsstämpelkolumnen med en tidsstämpel för händelsen. Egenskapen tidsstämpel är aldrig null. Den anger som standard den tid då händelsen visas om tidsstämpelegenskapen inte har angetts i händelsekällan. Den lagrade tidsstämpeln finns alltid i UTC.
Varje rad innehåller TSID-kolumnen (Time Series ID) enligt definitionen när Azure Time Series Insights Gen2-miljön skapas. TSID-egenskapsnamnet innehåller suffixet _string .
Alla andra egenskaper som skickas som telemetridata mappas till kolumnnamn som slutar med _bool (boolesk), _datetime (tidsstämpel), _long (lång), _double (dubbel), _string (sträng) eller _dynamic (dynamisk), beroende på egenskapstyp. Mer information finns i om datatyper som stöds.
Det här mappningsschemat gäller för den första versionen av filformatet, som refereras till som V=1, och lagras i basmappen med samma namn. När den här funktionen utvecklas kan det här mappningsschemat ändras och referensnamnet ökas.

Nästa steg

Läs mer om datamodellering.
Planera din Azure Time Series Insights Gen2-miljö.

Dela via