Sdílet prostřednictvím


Optimalizace datových sad a ukládání do mezipaměti

Řídicí panely AI/BI jsou cenné nástroje pro analýzu dat a rozhodování a efektivní doba načítání může výrazně zlepšit uživatelské prostředí. Tento článek vysvětluje, jak ukládání do mezipaměti a optimalizace datových sad zvýkonňuje a zefektivňuje řídicí panely.

Výkon dotazů

Dotazy a jejich výkon můžete zkontrolovat v historii dotazů pracovního prostoru. V historii dotazů se zobrazují dotazy SQL prováděné pomocí služby SQL Warehouse. Kliknutím na Ikona historieHistorii dotazů na bočním panelu zobrazíte historii dotazů. Viz historie dotazů.

U datových sad řídicích panelů azure Databricks používá optimalizace výkonu v závislosti na velikosti výsledku datové sady.

Optimalizace datových sad

Datové sady řídicích panelů AI/BI zahrnují následující optimalizace výkonu:

  • Pokud je velikost výsledku datové sady malá (menší nebo rovna 100 tisíc řádkům nebo 100 MB podle toho, co je menší), výsledek datové sady se načte klientovi a v prohlížeči se provede filtrování a agregace specifické pro vizualizaci. Filtrování a agregace dat pro malé datové sady je velmi rychlé a pokud zajistíte, že je datová sada malá, může vám to pomoci s optimize výkonem dashboardu. U malých datových sad se v historii dotazů zobrazí jenom dotaz na datovou sadu.
  • Pokud je velikost výsledku datové sady velká (větší než 100 tisíc řádků nebo 100 MB), text dotazu datové sady je zabalený v klauzuli SQL WITH a filtrování a agregace specifické pro vizualizaci se provádí v dotazu na back-endu, nikoli v prohlížeči. U velkých datových sad se dotaz vizualizace zobrazí v historii dotazů.
  • U vizualizačních dotazů odesílaných do back-endu se samostatné dotazy vizualizace na stejnou datovou sadu, které sdílejí stejné GROUP BY klauzule a predikáty filtrů, zkombinují do jednoho dotazu pro zpracování. V tomto případě se uživatelům může zobrazit jeden kombinovaný dotaz v historii dotazů, který načítá výsledky pro více vizualizací.

Ukládání do mezipaměti a aktuálnost dat

Řídicí panely udržují 24hodinovou mezipaměť výsledků, která umožňuje optimize počáteční dobu načítání, která funguje na základě maximálního úsilí. To znamená, že zatímco se systém vždy pokouší použít historické výsledky dotazů propojené s řídicím panelem credentials ke zvýšení výkonu, existují případy, where výsledky uložené v mezipaměti nelze vytvářet ani udržovat. Data uložená v mezipaměti neobsahují konkrétní paměť limit ani počet pevných dotazů.

U řídicích panelů s více stránkami platí následující:

  • Úprava konceptu řídicího panelu načte a ukládá do mezipaměti všechny datové sady.
  • Když čtenáři otevřou publikovaný řídicí panel, spustí se a ukládají se do mezipaměti jenom datové sady, které podporují aktivní stránku.
  • Pokud je plán set, všechny datové sady refresh jsou zpracovány podle plánu a tyto výsledky se ukládají do mezipaměti.

Následující table vysvětluje, jak se ukládání do mezipaměti liší podle stavu řídicího panelu a credentials:

Typ řídicího panelu Typ ukládání do mezipaměti
Publikovaný řídicí panel s vloženými credentials Sdílená mezipaměť. Všichni diváci vidí stejné výsledky.
Návrh nebo publikovaný řídicí panel bez vloženého credentials Mezipaměť pro jednotlivé uživatele. Čtenáři vidí výsledky na základě svých oprávnění k datům.

Řídicí panely automaticky používají výsledky dotazu uložené v mezipaměti, pokud podkladová data zůstanou po posledním dotazu nezměněná nebo pokud se výsledky načetly před méně než 24 hodinami. Pokud na řídicím panelu existují zastaralé výsledky a je aplikováno parameters, dotazy se znovu spustí, pokud nebyly ve stejných 24 hodinách použity stejné parameters. Podobně platí, že použití filtrů u datových sad přesahujících 100 000 řádků vyzve dotazy k opětovnému spuštění, pokud se v posledních 24 hodinách nepoužívaly stejné filtry.

Naplánované dotazy

Přidání plánu do publikovaného řídicího panelu s integrovanými credentials může výrazně urychlit počáteční načítací proces pro všechny uživatele řídicích panelů.

Pro každý naplánovaný řídicí panel updateprobíhá následující:

  • Veškerá logika SQL, která definuje datové sady, se spouští v určeném časovém intervalu.
  • Výsledky naplňují mezipaměť výsledků dotazu a pomáhají zlepšit čas počátečního načtení řídicího panelu.