Condividi tramite


Accelerazione delle query per i collegamenti a OneLake - Panoramica (anteprima)

I collegamenti a OneLake sono riferimenti da una eventhouse che punta a origini interne o esterne. Questo tipo di collegamento viene eseguito successivamente per la query nei set di query KQL usando la external_table() funzione . Le query eseguite su collegamenti OneLake possono essere meno efficienti rispetto ai dati inseriti direttamente nelle case eventi a causa di vari fattori, ad esempio le chiamate di rete per recuperare i dati dall'archiviazione, l'assenza di indici e altro ancora.

L'accelerazione delle query consente di specificare un criterio sulle tabelle delta esterne che definisce il numero di giorni per memorizzare nella cache i dati per le query con prestazioni elevate.

L'accelerazione delle query è supportata in Eventhouse su tabelle delta da collegamenti OneLake, Azure Data Lake Store Gen1, Amazon S3, Google Servizi cloud, tabelle esterne di archiviazione BLOB di Azure e tutte le destinazioni supportate dai collegamenti a OneLake.

Importante

Questa funzionalità è in anteprima.

Nota

  • Se sono presenti considerazioni sulla conformità che richiedono di archiviare i dati in un'area specifica, assicurarsi che la capacità di Eventhouse si trovi nella stessa area della tabella esterna o dei dati di collegamento.

  • Le tabelle esterne accelerate aggiungono alla risorsa di archiviazione COGS e all'utilizzo dell'archiviazione SSD eventhouse, analogamente alle normali tabelle nel database KQL. È possibile controllare la quantità di dati da memorizzare nella cache definendo la proprietà Hot nei criteri di accelerazione della query. L'attività di indicizzazione e inserimento contribuisce anche all'uso delle risorse di calcolo.

Quando è consigliabile usare l'accelerazione delle query per i collegamenti OneLake?

L'accelerazione delle query memorizza nella cache i dati man mano che arrivano in OneLake, offrendo prestazioni paragonabili all'inserimento di dati in Eventhouse. Usando questa funzionalità, è possibile accelerare l'atterraggio dei dati in OneLake, inclusi i dati esistenti e tutti i nuovi aggiornamenti e prevedere prestazioni simili. In questo modo si elimina la necessità di gestire le pipeline di inserimento, mantenere copie duplicate dei dati, garantendo al tempo stesso che i dati rimangano sincronizzati senza ulteriori sforzi.

Gli scenari seguenti sono ideali per l'uso dell'accelerazione delle query sui collegamenti OneLake:

  • Eseguire query sui dati in OneLake con prestazioni elevate: quando si hanno carichi di lavoro esistenti che caricano i dati e lo gestiscono nell'archiviazione (facoltativamente in un cloud o in un'area diversa) e si vogliono eseguire query su alcuni o tutti i dati con prestazioni elevate.
  • Combinare dati cronologici con flussi in tempo reale: quando si vuole combinare facilmente l'atterraggio dei dati in OneLake direttamente con flussi in tempo reale che arrivano in Eventhouse senza compromettere la velocità delle query.
  • Sfruttare i dati delle dimensioni gestiti da altri elementi: spesso i dati relativi a valori elevati e volumi di piccole dimensioni sono ospitati in server SQL, Cosmos DB, Snowflake o altri sistemi di cui è possibile eseguire il mirroring in OneLake. I tasti di scelta rapida di OneLake accelerati possono rendere questi dati facilmente utilizzabili per i join e l'arricchimento nella query Eventhouse. Poiché i dati delle dimensioni sono spesso molto più piccoli rispetto ai dati dell'attività, il costo aggiuntivo associato a tale utilizzo è in genere minimo.

Comportamento delle tabelle delta esterne accelerate

I collegamenti OneLake accelerati si comportano come tabelle esterne, con le stesse limitazioni e funzionalità. In particolare, le funzionalità come la visualizzazione materializzata e i criteri di aggiornamento non sono supportate.

Monitorare il comportamento dell'accelerazione

Il processo iniziale di accelerazione delle query dipende dalle dimensioni della tabella esterna. Per monitorare lo stato di avanzamento e le impostazioni di una tabella accelerata, usare il comando .show external table operations query_acceleration statistics in un set di query KQL.

Limiti

  • Il numero di colonne nella tabella esterna non può superare 900.
  • Le prestazioni delle query su tabelle delta esterne accelerate con partizioni potrebbero non essere ottimali durante l'anteprima.
  • La funzionalità presuppone che le tabelle differenziali con funzionalità avanzate statiche, ad esempio il mapping delle colonne non cambia, le partizioni non cambiano e così via. Per modificare le funzionalità avanzate, disabilitare prima di tutto il criterio e, dopo aver apportato la modifica, riabilitare il criterio.
  • Le modifiche dello schema nella tabella delta devono essere seguite anche con il rispettivo .alter schema di tabella delta esterna, il che potrebbe comportare l'accelerazione a partire da zero se si è verificato un cambiamento di schema che causa un'interruzione dello schema.
  • L'eliminazione basata su indice non è supportata per le partizioni.
  • I file Parquet con dimensioni compresse superiori a 6 GB non verranno memorizzati nella cache.

Fatturazione

I dati accelerati vengono addebitati nel contatore della cache OneLake Premium, in modo analogo alle tabelle eventhouse native. È possibile controllare la quantità di dati accelerata configurando il numero di giorni da memorizzare nella cache. L'attività di indicizzazione può anche contare sul consumo di CU. Per altre informazioni, vedere Fatturazione dell'archiviazione.

Gli addebiti correlati all'accelerazione delle query verranno visualizzati nell'app Metriche di Fabric nella eventhouse in cui viene creato il collegamento accelerato.