Dela via


Aktivera genomsökningsstatistik för frågor

Viktig

Azure HDInsight på AKS drogs tillbaka den 31 januari 2025. Läs mer med det här meddelandet.

Du måste migrera dina arbetsbelastningar till Microsoft Fabric- eller en motsvarande Azure-produkt för att undvika plötsliga uppsägningar av dina arbetsbelastningar.

Viktig

Den här funktionen är för närvarande i förhandsversion. De kompletterande användningsvillkoren för Förhandsversioner av Microsoft Azure innehåller fler juridiska villkor som gäller för Azure-funktioner som är i betaversion, förhandsversion eller på annat sätt ännu inte har släppts i allmän tillgänglighet. Information om den här specifika förhandsversionen finns i Azure HDInsight på AKS-förhandsversionsinformation. För frågor eller funktionsförslag, skicka en begäran om AskHDInsight- med informationen och följ oss för fler uppdateringar om Azure HDInsight Community.

Ofta krävs datateam för att undersöka prestanda eller optimera frågor för att förbättra resursanvändningen eller uppfylla affärskraven.

En ny kapabilitet har lagts till inom Trino för HDInsight på AKS, vilket gör det möjligt för användaren att samla in Scan-statistik för valfri anslutning. Den här funktionen ger djupare insikter om frågeprestandaprofil utöver vad som är tillgängligt i statistik som produceras av Trino.

Du kan aktivera den här funktionen med sessionsegenskapcollect_raw_scan_statisticsoch genom att följa Trino-kommandot:

SET SESSION collect_raw_scan_statistics=true

När det är aktiverat har källoperatorer i frågan, som TableScanOperator, ScanFilterAndProject osv., statistik över dataskanningar, och granulariteten är per operatorinstans i en pipeline.

Tips

Genomsökningsstatistik är användbara för att identifiera flaskhalsar när klustret eller frågan inte är CPU-begränsad och läsprestanda för frågan behöver undersökas. Det hjälper också till att förstå körningsprofilen för frågan ur ett perspektiv på delad nivå.

Obs

För närvarande är det insamlade antalet delningar per arbetare begränsat till 1 000 på grund av storleksbegränsningar för producerade data. Om antalet delningar per arbetare för frågan överskrider den här gränsen returneras de 1 000 längsta delningarna som körs.

Så här får du åtkomst till genomsökningsstatistik

När sessionsegenskapen har angetts börjar efterföljande frågor i sessionen samla in statistik från källoperatorer när de är tillgängliga. Det finns flera sätt för användare att använda och analysera genomsökningsstatistik som genererats för en fråga.

Query Json

Fliken Json på sidan Frågeinformation innehåller JSON-representationen av frågan, som inkluderar statistik för varje steg och hanteringskedja för frågan. När sessionsegenskapen har angetts innehåller json ett nytt fält med namnet scanStats i queryStats.operatorSummaries[*]. Matrisen innehåller ett objekt per instans av operatorn.

I följande exempel visas en json för en fråga med hjälp av hive connector och genomsökningsstatistik aktiverad.

Not

Sammanfattningen av genomsökningsstatistiken innehåller splitInfo som fylls i av anslutningen. På så sätt kan användarna styra vilken information om butiken de vill inkludera i sina anpassade anslutningsappar.

Skärmbild som visar sammanfattning av frågeprestanda.

Användargränssnitt för genomsökningsstatistik

Du hittar en ny flik med namnet Scan Stats på sidan Frågeinformation som visualiserar den statistik som produceras av den här funktionen och ger insikter om prestanda för delad kornighet för varje arbetare. På sidan kan användare visa trinos körningsprofil för frågan med information som samtidiga läsningar över tid och dataflöde.

Skärmbild som visar tillägg av genomsökningsstatus.

I följande exempel visas en sida för en fråga med sökstatistik aktiverad.

Skärmbild som visar fliken Genomsökningsstatus.

Använda Microsoft Query-logger**

Microsoft Query Logger har inbyggt stöd för den här funktionen. När det är aktiverat med den här funktionen fyller plugin-programmet för frågeloggning i en tabell med namnet operatorstats tillsammans med tabellen frågehändelser, den här tabellen avnormaliseras så att varje operatorinstans är en rad för varje fråga.