Sdílet prostřednictvím


Povolit statistiky skenování pro dotazy

Důležitý

Azure HDInsight v AKS byl vyřazen 31. ledna 2025. Zjistěte více o tomto oznámení .

Abyste se vyhnuli náhlému ukončení úloh, musíte migrovat úlohy do Microsoft Fabric nebo ekvivalentního produktu Azure.

Důležitý

Tato funkce je aktuálně ve verzi Preview. Doplňkové podmínky použití pro Microsoft Azure Preview obsahují další právní podmínky vztahující se na funkce Azure, které jsou v beta testování, v Preview nebo ještě nejsou obecně dostupné. Informace o této konkrétní verzi Preview najdete v tématu Azure HDInsight ve službě AKS. Pokud máte dotazy nebo návrhy funkcí, odešlete prosím žádost na AskHDInsight s podrobnostmi a pro další aktualizace nás sledujte na komunitě Azure HDInsight.

Datové týmy jsou často potřeba k prozkoumání výkonu nebo optimalizaci dotazů, aby se zlepšilo využití prostředků nebo splňovaly obchodní požadavky.

V Trino pro HDInsight na AKS byla přidána nová funkce, která uživateli umožňuje zachytit statistiky skenování pro libovolný konektor. Tato funkce poskytuje hlubší přehled o profilu výkonu dotazů nad rámec toho, co je dostupné ve statistikách vytvořených Trino.

Tuto funkci můžete povolit pomocí vlastnosti relace collect_raw_scan_statisticsa následujícího příkazu Trino:

SET SESSION collect_raw_scan_statistics=true

Po povolení mají zdrojové operátory v dotazu, jako je TableScanOperator, ScanFilterAndProject atd., statistiky skenování dat, členitost je pro každou instanci operátoru v rámci kanálu.

Spropitné

Statistiky skenování jsou užitečné při identifikaci úzkých míst v případě, že cluster nebo dotaz nejsou omezeny procesorem a potřebuje se prověřit výkon čtení dotazu. Pomáhá také pochopit profil provádění dotazu z pohledu dělené úrovně.

Poznámka

V současné době je zachycený počet rozdělení na pracovníka omezený na 1 000 kvůli velikostním omezením produkovaných dat. Pokud počet rozdělení na jednoho pracovníka pro dotaz překročí tento limit, vrátí se 1000 nejdéle běžících rozdělení.

Jak získat přístup ke statistikám skenování

Jakmile je vlastnost relace nastavena, následné dotazy v relaci začnou zaznamenávat statistiky ze zdrojových operátorů, kdykoli jsou k dispozici. Existuje několik způsobů, jak mohou uživatelé využívat a analyzovat statistiky skenu vygenerované pro dotaz.

json dotazu

Karta Json na stránce podrobností dotazu poskytuje reprezentaci dotazu JSON, která zahrnovala statistiky v každé fázi kanálu dotazu. Když je vlastnost relace nastavena, json obsahuje nové pole s názvem scanStats v queryStats.operatorSummaries[*]. Pole obsahuje jeden objekt na instanci operátoru.

Následující příklad ukazuje JSON pro dotaz pomocí hive connector se zapnutými statistikami skenování.

Poznámka

Souhrn statistik kontroly zahrnuje splitInfo, které je naplněno konektorem. To umožňuje uživatelům řídit, jaké informace o úložišti chtějí zahrnout do vlastních konektorů.

Snímek obrazovky zobrazující souhrn výkonu dotazu

uživatelské rozhraní statistik skenování

Novou kartu s názvem Scan Stats najdete na stránce podrobností dotazu, která vizualizuje statistiky vytvořené touto funkcí a poskytuje přehledy o rozděleném výkonu jednotlivých pracovních procesů. Stránka umožňuje uživatelům zobrazit profil provádění trino pro dotaz s informacemi, jako je souběžné čtení dat v průběhu času a datový tok.

Snímek obrazovky zobrazující přidání stavu skenování

Následující příklad ukazuje stránku pro dotaz s povolenou statistikou skenování.

Snímek obrazovky s kartou Stav kontroly

Použití protokolovacího nástroje Microsoft Query**

Microsoft Query logger má integrovanou podporu pro tuto funkci. Pokud je tato funkce povolena, plugin pro protokolování dotazů naplní tabulku nazvanou operatorstats spolu s tabulkou událostí dotazů. Tato tabulka je denormalizována tak, že každá instance operátoru představuje jeden řádek pro každý dotaz.