Delen via


Scanstatistieken voor query's inschakelen

Belangrijk

Azure HDInsight op AKS is op 31 januari 2025 buiten gebruik gesteld. Ontdek meer via deze aankondiging.

U moet uw workloads migreren naar Microsoft Fabric- of een gelijkwaardig Azure-product om plotselinge beëindiging van uw workloads te voorkomen.

Belangrijk

Deze functie is momenteel beschikbaar als preview-versie. De aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews meer juridische voorwaarden bevatten die van toepassing zijn op Azure-functies die bèta, in preview of anderszins nog niet in algemene beschikbaarheid zijn vrijgegeven. Zie Azure HDInsight in AKS preview-informatievoor meer informatie over deze specifieke preview. Voor vragen of suggesties voor functies dient u een aanvraag in op AskHDInsight- met de details en volgt u ons voor meer updates over Azure HDInsight Community-.

Vaak zijn gegevensteams vereist om prestaties te onderzoeken of query's te optimaliseren om het resourcegebruik te verbeteren of te voldoen aan de bedrijfsvereisten.

Er is een nieuwe mogelijkheid toegevoegd in Trino voor HDInsight in AKS waarmee de gebruiker scanstatistieken voor elke connector kan vastleggen. Deze mogelijkheid biedt meer inzicht in het queryprestatiesprofiel dan wat beschikbaar is in statistieken die door Trino worden geproduceerd.

U kunt deze functie inschakelen met behulp van sessieeigenschapcollect_raw_scan_statisticsen door de volgende Trino-opdracht te volgen:

SET SESSION collect_raw_scan_statistics=true

Zodra deze functie is ingeschakeld, hebben bronoperators in de query, zoals TableScanOperator, ScanFilterAndProject enzovoort, statistieken over gegevensscans; de granulariteit is per operatorexemplaar in een pijplijn.

Fooi

Scanstatistieken zijn nuttig bij het identificeren van knelpunten wanneer de prestaties van het cluster of de query niet door de CPU worden beperkt en het leesgedrag van de query nader onderzocht moet worden. Het helpt ook om inzicht te hebben in het uitvoeringsprofiel van de query vanuit een perspectief op gesplitst niveau.

Notitie

Momenteel is het vastgelegde aantal splitsingen per werkrol beperkt tot 1000 vanwege de groottebeperkingen van geproduceerde gegevens. Als het aantal splitsingen per werknemer voor de query deze limiet overschrijdt, worden de 1000 langst lopende splitsingen geretourneerd.

Toegang krijgen tot scanstatistieken

Zodra de sessie-eigenschap is ingesteld, beginnen volgende query's in de sessie met het vastleggen van statistieken van bronoperators wanneer deze beschikbaar zijn. Er zijn meerdere manieren waarop gebruikers scanstatistieken kunnen gebruiken en analyseren die zijn gegenereerd voor een query.

Query Json

Het tabblad Json op de pagina Querydetails biedt de JSON-weergave van de query, die statistieken bevat voor elke fase, pijplijn van de query. Wanneer de sessieeigenschap is ingesteld, bevat de json een nieuw veld met de naam scanStats in queryStats.operatorSummaries[*]. De array bevat één object per instantie van de operator.

In het volgende voorbeeld ziet u een json voor een query met hive connector en met scanstatistieken ingeschakeld.

Notitie

De samenvatting van scanstatistieken bevat splitInfo die wordt ingevuld door de connector. Hierdoor kunnen gebruikers bepalen welke informatie over de winkel ze willen opnemen in hun aangepaste connectors.

schermopname van de samenvatting van queryprestaties.

de gebruikersinterface voor statistieken scannen

Er is een nieuw tabblad genaamd Scan Stats op de pagina met querydetails, waarop de statistieken worden gevisualiseerd die door deze functie worden geproduceerd, en er wordt inzicht gegeven in de prestatieverdeling van elke werknemer. Op de pagina kunnen gebruikers het uitvoeringsprofiel van trino voor de query bekijken met informatie zoals gelijktijdige leesbewerkingen in de loop van de tijd en doorvoer.

schermopname met de toevoeging van de scanstatus.

In het volgende voorbeeld ziet u een pagina voor een query waarvoor scanstatistieken zijn ingeschakeld.

Schermopname van het tabblad Scanstatus.

Microsoft Query-logboekregistratie** gebruiken

Microsoft Query logger heeft ingebouwde ondersteuning voor deze functie. Wanneer deze functie is ingeschakeld, vult de querylogger-invoegtoepassing een tabel met de naam operatorstats, samen met de tabel voor querygebeurtenissen. Deze tabel is gedenormaliseerd zodat elke operatorinstantie een afzonderlijke rij voor elke query heeft.