Ottimizzazione e memorizzazione nella cache dei set di dati
I dashboard di intelligenza artificiale/BI sono strumenti preziosi per l'analisi dei dati e il processo decisionale e tempi di caricamento efficienti possono migliorare significativamente l'esperienza utente. Questo articolo illustra come le ottimizzazioni della memorizzazione nella cache e del set di dati rendono i dashboard più efficienti ed efficienti.
Prestazioni delle query
È possibile esaminare le query e le relative prestazioni nella cronologia delle query dell'area di lavoro. La cronologia delle query mostra le query SQL eseguite con SQL Warehouse. Fare clic su Cronologia query nella barra laterale per visualizzare la cronologia delle query. Vedere Cronologia delle query.
Per i set di dati del dashboard, Azure Databricks applica ottimizzazioni delle prestazioni a seconda delle dimensioni del risultato del set di dati.
Ottimizzazioni del set di dati
I set di dati del dashboard di intelligenza artificiale/BI includono le ottimizzazioni delle prestazioni seguenti:
- Se le dimensioni dei risultati del set di dati sono ridotte (minori o uguali a 100.000 righe o 100 MB, a seconda delle dimensioni inferiori), il risultato del set di dati viene eseguito sul client e vengono eseguiti filtri e aggregazioni specifici della visualizzazione nel browser. L'applicazione di filtri e l'aggregazione dei dati per set di dati di piccole dimensioni è molto veloce. Assicurarsi che il proprio set di dati sia di piccole dimensioni può aiutare a ottimizzare le prestazioni del dashboard. Con set di dati di piccole dimensioni, nella cronologia delle query viene visualizzata solo la query del set di dati.
- Se le dimensioni dei risultati del set di dati sono grandi (maggiori di 100.000 righe o 100 MB), il testo della query del set di dati viene incluso in una clausola SQL
WITH
e il filtro e l'aggregazione specifici della visualizzazione vengono eseguiti in una query sul back-end anziché nel browser. Con set di dati di grandi dimensioni, la query di visualizzazione viene visualizzata nella cronologia delle query. - Per le query di visualizzazione inviate al back-end, le query di visualizzazione separate sullo stesso set di dati che condividono le stesse
GROUP BY
clausole e predicati di filtro vengono combinate in una singola query per l'elaborazione. In questo caso, gli utenti potrebbero visualizzare una query combinata nella cronologia delle query che recupera i risultati per più visualizzazioni.
Memorizzazione nella cache e aggiornamento dei dati
I dashboard mantengono una cache dei risultati di 24 ore per ottimizzare i tempi di caricamento iniziali, operando in modo ottimale. Ciò significa che mentre il sistema tenta sempre di usare i risultati delle query cronologici collegati alle credenziali del dashboard per migliorare le prestazioni, esistono alcuni casi in cui i risultati memorizzati nella cache non possono essere creati o mantenuti. I dati memorizzati nella cache non hanno limiti di memoria specifici o un numero fisso di query.
Per i dashboard a più pagine, si applica quanto segue:
- La modifica di una bozza di dashboard carica e memorizza nella cache tutti i set di dati.
- Quando i visualizzatori aprono un dashboard pubblicato, vengono eseguiti e memorizzati nella cache solo i set di dati che supportano la pagina attiva.
- Se viene impostata una pianificazione, tutti i set di dati vengono aggiornati in base alla pianificazione e tali risultati vengono memorizzati nella cache.
La tabella seguente illustra come la memorizzazione nella cache varia in base allo stato e alle credenziali del dashboard:
Tipo di dashboard | Tipo di memorizzazione nella cache |
---|---|
Dashboard pubblicato con credenziali incorporate | Cache condivisa. Tutti i visualizzatori visualizzano gli stessi risultati. |
Dashboard in bozza o dashboard pubblicato senza credenziali integrate | Cache per utente. I visualizzatori visualizzano i risultati in base alle autorizzazioni per i dati. |
I dashboard usano automaticamente i risultati delle query memorizzati nella cache se i dati sottostanti rimangono invariati dopo l'ultima query o se i risultati sono stati recuperati meno di 24 ore fa. Se esistono risultati non aggiornati e i parametri vengono applicati al dashboard, le query verranno rieseguite a meno che non siano stati usati gli stessi parametri nelle ultime 24 ore. Analogamente, l'applicazione di filtri ai set di dati che superano 100.000 righe richiede di rieseguire query, a meno che gli stessi filtri non siano stati applicati in precedenza nelle ultime 24 ore.
Query pianificate
L'aggiunta di una pianificazione a un dashboard pubblicato con credenziali incorporate può velocizzare notevolmente il processo di caricamento iniziale per tutti i visualizzatori del dashboard.
Per ogni aggiornamento pianificato del dashboard, si verifica quanto segue:
- Tutta la logica SQL che definisce i set di dati viene eseguita nell'intervallo di tempo designato.
- I risultati popolano la cache dei risultati della query e consentono di migliorare il tempo di caricamento iniziale del dashboard.