Condividi tramite


Funzionamento di Esplora dati di Azure

Azure Esplora dati offre prestazioni senza precedenti per l'inserimento e l'esecuzione di query su dati di telemetria, log, eventi, tracce e serie temporali. Offre formati di archiviazione ottimizzati, indici e usa statistiche avanzate sui dati per una pianificazione efficiente delle query e l'esecuzione di query just-in-time.

Archiviazione e calcolo

Azure Esplora dati separa le risorse di archiviazione e calcolo. I dati persistenti risiedono in Archiviazione BLOB di Azure, mentre le risorse di calcolo possono archiviare dati temporanei o fungere da cache per l'archiviazione permanente.

Questa separazione offre i vantaggi seguenti:

  • Scalabilità orizzontale indipendente delle risorse di archiviazione e calcolo.
  • Accessibilità a dati identici in più cluster di calcolo. Per altre informazioni, vedere Condivisione dati.
  • Ottimizzazione dello SKU. Per altre informazioni, vedere Selezionare uno SKU per il cluster.

Archiviazione di dati

Azure Esplora dati partiziona tutti i dati inseriti in extent o partizioni di dati, ovvero sezioni orizzontali della tabella di destinazione. Un extent può iniziare fino a un singolo record. Man mano che i dati si accumulano nella tabella, Azure Esplora dati unisce automaticamente gli extent fino a quando non aumentano fino a raggiungere milioni di record. Ogni extent viene codificato e indicizzato indipendentemente da altri extent. Questa funzionalità contribuisce alla scalabilità lineare nella velocità effettiva di inserimento.

Gli extent vengono distribuiti uniformemente tra i nodi del cluster, in cui vengono memorizzati nella cache sia nell'unità SSD locale che in memoria. Questa distribuzione migliora la capacità di preparare ed eseguire query altamente distribuite e parallele.

Per altre informazioni sull'archiviazione dei dati, vedere Panoramica degli extent.

Nota

Azure Esplora dati mantiene anche metadati essenziali, ad esempio schemi di tabella e oggetti criteri. Per un elenco dei criteri, vedere Panoramica dei criteri.

Cache dei dati

Azure Esplora dati dispone di un sistema di cache dei dati a più gerarchie per garantire che i dati più rilevanti vengano memorizzati nella cache il più possibile alla CPU. Il sistema della cache dipende dall'immutabilità degli extent e funziona interamente con i dati compressi. Per migliorare le prestazioni delle query, i dati rimangono compressi anche in RAM e vengono decompressi solo quando necessario per una query.

Per altre informazioni sulla memorizzazione nella cache, vedere Criteri di cache.

Indicizzazione del testo

Azure Esplora dati è progettato per indicizzare in modo efficiente le colonne free-text (string) e JSON (dinamiche) durante l'inserimento dei dati. Gli indici mantengono un livello di granularità che consente la valutazione di parti della query in base all'indice senza analizzare i dati.

L'ottimizzazione continua in background degli extent tramite l'unione migliora la compressione e l'indicizzazione, garantendo un'archiviazione efficiente e una bassa latenza delle query. Quando gli extent raggiungono una determinata dimensione, vengono uniti solo gli indici per migliorare le prestazioni delle query senza compromettere l'efficienza.

Per altre informazioni sull'unione di extent e indice, vedere Criteri di unione.

Archivio righe

Azure Esplora dati offre una soluzione di archiviazione intermedia denominata archivio righe. L'archivio righe consente l'assunzione efficiente di piccole parti di dati e garantisce che questi dati siano immediatamente disponibili per la query. Quando si abilita l'inserimento in streaming nel cluster, i dati vengono inizialmente inseriti nell'archivio righe e quindi spostati negli extent dell'archivio colonne.

Per altre informazioni, vedere Invio in batch e inserimento in streaming.

Compressione delle colonne

Azure Esplora dati mantiene i dati in uno stato compresso, riducendo la quantità di memoria necessaria per archiviare ed elaborare i dati. Questo comportamento comporta prestazioni delle query più veloci e un uso più efficiente delle risorse di sistema.

Azure Esplora dati evita la compressione verticale, che comporta l'ordinamento dei dati per migliorare la compressione, a causa del costo elevato della CPU in scenari di dati free-text o semistrutturati. È invece possibile specificare l'ordinamento dei dati preferito per gli scenari con modelli di query dominanti. Questo compromesso assegna priorità alla disponibilità rapida dei dati per le query.

Per altre informazioni sulla specifica dell'ordinamento dei dati, vedere Criteri di ordinamento delle righe.

Query sui dati distribuiti

Azure Esplora dati usa la tecnologia di query sui dati distribuita destinata all'analisi ad hoc veloce in set di dati non strutturati di grandi dimensioni. Le funzionalità principali di questa tecnologia includono:

  • I dati temporanei generati da query vengono archiviati in RAM aggregata
  • Gli extent pertinenti sono contrassegnati in un piano di query, fornendo l'isolamento dello snapshot
  • Le query veloci ed efficienti sono classificate in ordine di priorità con timeout predefiniti brevi
  • Supporto nativo per query tra cluster che riduce al minimo lo scambio di dati tra cluster
  • Le query vengono compilate just-in-time nel codice del computer altamente efficiente, usando le statistiche dei dati di tutti gli extent e personalizzate in base alle specifiche di codifica delle colonne

Nota

Azure Esplora dati è progettato per lavorare con il Linguaggio di query Kusto (KQL) predefinito per Azure Esplora dati. Inoltre, T-SQL è supportato.