Archiviazione dati

Articolo
06/01/2023

Nota

Il servizio Time Series Insights verrà ritirato il 7 luglio 2024. Valutare la possibilità di eseguire la migrazione di ambienti esistenti a soluzioni alternative il prima possibile. Per altre informazioni sulla deprecazione e la migrazione, visitare la documentazione.

Questo articolo descrive l'archiviazione dei dati in Azure Time Series Insights Gen2. Vengono illustrate le procedure consigliate, la disponibilità dei dati e l'accesso frequente e sporadico.

Provisioning in corso

Quando si crea un ambiente Azure Time Series Insights Gen2, sono disponibili le opzioni seguenti:

Archiviazione dati ad accesso sporadico:
- Creare una nuova risorsa Archiviazione di Azure nella sottoscrizione e nell'area scelta per l'ambiente.
- Allegare un account di Archiviazione di Azure preesistente. Questa opzione è disponibile solo tramite la distribuzione da un modello di Azure Resource Manager e non è visibile nella portale di Azure.
Archiviazione dei dati ad accesso frequente:
- Un archivio ad accesso frequente è facoltativo e può essere abilitato o disabilitato durante o dopo il provisioning. Se si decide di abilitare l'archivio ad accesso frequente in un secondo momento e sono già presenti dati nell'archivio ad accesso sporadico, esaminare questa sezione di seguito per comprendere il comportamento previsto. Il tempo di conservazione dei dati dell'archivio ad accesso frequente può essere configurato per 7-31 giorni e può anche essere regolato in base alle esigenze.

Quando un evento viene inserito, viene indicizzato sia nell'archivio ad accesso frequente (se abilitato) che nell'archivio ad accesso sporadico.

Avviso

In qualità di proprietario dell'account di Archiviazione BLOB di Azure in cui si trovano i dati dell'archivio ad accesso sporadico, l'utente ha completo accesso a tutti i dati dell'account. Questo accesso include le autorizzazioni di scrittura ed eliminazione. Non modificare o eliminare i dati scritti da Azure Time Series Insights Gen2 perché ciò può causare la perdita di dati.

Disponibilità dei dati

Partizioni e indici di Dati di Azure Time Series Insights Gen2 per prestazioni ottimali delle query. I dati diventano disponibili per eseguire query sia dall'archivio ad accesso frequente (se abilitato) che dall'archivio ad accesso sporadico dopo l'indicizzazione. La quantità di dati inseriti e la velocità effettiva per partizione può influire sulla disponibilità. Esaminare le limitazioni della velocità effettiva dell'origine eventi e le procedure consigliate per ottenere prestazioni ottimali. È anche possibile configurare un avviso di ritardo per ricevere una notifica se l'ambiente riscontra problemi durante l'elaborazione dei dati.

Importante

È possibile che si verifichi un periodo di tempo massimo di 60 secondi prima che i dati diventino disponibili tramite le API di query time series. Se si verifica una latenza significativa superiore a 60 secondi, inviare un ticket di supporto tramite il portale di Azure.

È possibile che si verifichi un periodo di tempo massimo di 5 minuti prima che i dati diventino disponibili quando si accede direttamente ai file Parquet all'esterno di Azure Time Series Insights Gen2. Per altre informazioni, vedere la sezione Formato di file Parquet.

Archivio ad accesso frequente

I dati nell'archivio ad accesso frequente sono disponibili solo tramite le API di query Time Series, Azure Time Series Insights Tsi Explorer o Power BI Connector. Le query dell'archivio ad accesso frequente sono gratuite e non sono previste quote, ma esiste un limite di 30 richieste simultanee.

Comportamento dell'archivio ad accesso frequente

Se abilitata, tutti i dati trasmessi nell'ambiente verranno instradati all'archivio ad accesso frequente, indipendentemente dal timestamp dell'evento. Si noti che la pipeline di inserimento di streaming è compilata per lo streaming quasi in tempo reale e l'inserimento di eventi cronologici non è supportato.
Il periodo di conservazione viene calcolato in base al momento in cui l'evento è stato indicizzato nell'archivio ad accesso frequente e non al timestamp dell'evento. Ciò significa che i dati non sono più disponibili nell'archivio ad accesso frequente dopo che è trascorso il periodo di conservazione, anche se il timestamp dell'evento è per il futuro.
- Esempio: un evento con previsioni meteo di 10 giorni viene inserito e indicizzato in un contenitore di archiviazione ad accesso frequente configurato con un periodo di conservazione di 7 giorni. Dopo sette giorni, la stima non è più accessibile nell'archivio ad accesso frequente, ma può essere eseguita una query da freddo.
Se si abilita l'archivio ad accesso frequente in un ambiente esistente con dati recenti indicizzati nell'archiviazione ad accesso sporadico, si noti che l'archivio ad accesso frequente non verrà riempito di nuovo con questi dati.
Se è stato appena abilitato l'archivio ad accesso frequente e si verificano problemi durante la visualizzazione dei dati recenti in Esplora risorse, è possibile disattivare temporaneamente le query dell'archivio ad accesso frequente:

Archivio ad accesso sporadico

Questa sezione descrive Archiviazione di Azure dettagli rilevanti per Azure Time Series Insights Gen2.

Per una descrizione completa dell'Archiviazione BLOB di Azure, vedere l'introduzione ai BLOB di archiviazione .

Account di archiviazione ad accesso sporadico

Azure Time Series Insights Gen2 mantiene fino a due copie di ogni evento nell'account Archiviazione di Azure. Una copia archivia gli eventi ordinati in base al momento dell'inserimento, consentendo sempre l'accesso agli eventi in una sequenza temporale ordinata. Nel corso del tempo, Azure Time Series Insights Gen2 crea anche una copia ripartizionata dei dati per ottimizzare le query con prestazioni elevate.

Tutti i dati vengono archiviati a tempo indeterminato nell'account Archiviazione di Azure.

Avviso

Non limitare l'accesso a Internet pubblico all'account di archiviazione usato da Time Series Insights o la connessione necessaria verrà interrotta.

Scrittura e modifica di BLOB

Per garantire le prestazioni delle query e la disponibilità dei dati, non modificare o eliminare BLOB creati da Azure Time Series Insights Gen2.

Accesso ai dati dell'archivio ad accesso sporadico

Oltre ad accedere ai dati da Azure Time Series Insights Explorer e dalle API di query Time Series, è anche possibile accedere ai dati direttamente dai file Parquet archiviati nell'archivio ad accesso sporadico. Ad esempio, è possibile leggere, trasformare e pulire i dati in un notebook di Jupyter, e poi usarli per eseguire il training del modello di Azure Machine Learning nello stesso flusso di lavoro Spark.

Per accedere ai dati direttamente dall'account Archiviazione di Azure, è necessario accedere in lettura all'account usato per archiviare i dati di Azure Time Series Insights Gen2. È quindi possibile leggere i dati selezionati in base all'ora di creazione del file parquet presente nella cartella PT=Time descritta di seguito nella sezione dedicata al formato di file parquet. Per altre informazioni sull'abilitazione dell'accesso in lettura all'account di archiviazione, vedere Gestire l'accesso alle risorse dell'account di archiviazione.

Eliminazione dei dati

Non eliminare i file di Azure Time Series Insights Gen2. Gestire i dati correlati solo dall'interno di Azure Time Series Insights Gen2.

Formato di file parquet e struttura della cartelle

Parquet è un formato di file open source a colonne progettato per archiviazioni e prestazioni efficienti. Azure Time Series Insights Gen2 usa Parquet per abilitare le prestazioni delle query basate su ID serie temporali su larga scala.

Per altre informazioni sul tipo di file parquet, vedere la documentazione relativa a parquet.

Azure Time Series Insights Gen2 archivia le copie dei dati come indicato di seguito:

La PT=Time cartella viene partizionata in base al tempo di inserimento e archivia i dati approssimativamente in ordine di arrivo. Questi dati vengono mantenuti nel tempo ed è possibile accedervi direttamente dall'esterno di Azure Time Series Insight Gen2, ad esempio dai notebook Spark. Il timestamp <YYYYMMDDHHMMSSfff> corrisponde al tempo di inserimento dei dati. E <MinEventTimeStamp> <MaxEventTimeStamp> corrispondono all'intervallo di timestamp degli eventi inclusi nel file. Il percorso e il nome file sono formattati come segue:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Le PT=Live cartelle e PT=Tsid contengono una seconda copia dei dati, ripartizionata per le prestazioni delle query di serie temporali su larga scala. Questi dati sono ottimizzati nel tempo e non sono statici. Durante il ripartizionamento, alcuni eventi potrebbero essere presenti in più BLOB e i nomi dei BLOB potrebbero cambiare. Queste cartelle vengono usate da Azure Time Series Insights Gen2 e non devono essere accessibili direttamente; è consigliabile usare PT=Time solo a tale scopo.

Nota

I dati nella cartella precedenti a PT=Time giugno 2021 potrebbero avere un formato di nome file senza intervalli di tempo dell'evento: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. Il formato di file interno è lo stesso e i file con entrambi gli schemi di denominazione possono essere usati insieme.

<YYYY> esegue il mapping a una rappresentazione dell'anno a 4 cifre.
<MM> esegue il mapping a una rappresentazione del mese a 2 cifre.
Il <YYYYMMDDHHMMSSfff> formato dei timestamp viene mappato a un anno a quattro cifre (YYYY), un mese a due cifre (MM), un giorno a due cifre (DD), un'ora a due cifre (HH), un minuto a due cifre (MM), un secondo a due cifre (SS) e un millisecondo a tre cifre (fff).

Gli eventi di Azure Time Series Insights Gen2 vengono mappati al contenuto del file Parquet come indicato di seguito:

Viene eseguito il mapping di ogni evento a una singola riga.
Ogni riga include la colonna timestamp con un timestamp dell'evento. La proprietà timestamp non ha mai un valore Null. L'impostazione predefinita è l'ora di accodamento dell'evento se la proprietà timestamp non è specificata nell'origine evento. Il timestamp archiviato è sempre in formato UTC.
Ogni riga include le colonne Time Series ID (TSID) definite quando viene creato l'ambiente Azure Time Series Insights Gen2. Il nome della proprietà TSID include il suffisso _string.
Tutte le altre proprietà inviate come dati di telemetria vengono mappate ai nomi di colonna che terminano con _bool (booleano), (timestamp), _datetime (long), _long (double), _double _string (string) o _dynamic (dinamico), a seconda del tipo di proprietà. Per altre informazioni, vedere Tipi di dati supportati.
Questo schema di mapping si applica alla prima versione del formato di file, a cui viene fatto riferimento come V=1 e archiviato nella cartella di base con lo stesso nome. Con l'evolversi di questa funzionalità, lo schema di mapping potrebbe cambiare e il numero presente nel nome di riferimento potrebbe aumentare.

Passaggi successivi

Informazioni sulla modellazione dei dati.
Pianificare l'ambiente Azure Time Series Insights Gen2.

Condividi tramite