Partilhar via


Habilitar estatísticas de varredura para consultas

Importante

O Azure HDInsight no AKS foi desativado em 31 de janeiro de 2025. Saiba mais com este anúncio.

Você precisa migrar suas cargas de trabalho para Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para Pré-visualizações do Microsoft Azure incluem mais termos legais que se aplicam a funcionalidades do Azure que estão em versão beta, pré-visualização ou ainda não disponibilizadas ao público em geral. Para obter informações sobre esta pré-visualização específica, consulte informações de pré-visualização do Azure HDInsight no AKS. Para perguntas ou sugestões de funcionalidades, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para mais atualizações sobre a Comunidade do Azure HDInsight .

Muitas vezes, as equipes de dados são necessárias para investigar o desempenho ou otimizar consultas para melhorar a utilização de recursos ou atender aos requisitos de negócios.

Um novo recurso foi adicionado no Trino for HDInsight no AKS que permite ao usuário capturar estatísticas de varredura para qualquer conector. Esse recurso fornece informações mais detalhadas sobre o perfil de desempenho da consulta além do que está disponível nas estatísticas produzidas pelo Trino.

Você pode habilitar esta funcionalidade usando as propriedades de sessão collect_raw_scan_statisticse seguindo o comando do Trino:

SET SESSION collect_raw_scan_statistics=true

Uma vez ativado, os operadores de origem na consulta, como TableScanOperator, ScanFilterAndProject, etc., têm estatísticas sobre verificações de dados; a granularidade é por instância do operador num pipeline.

Dica

As estatísticas de verificação são úteis para identificar gargalos quando o cluster ou a consulta não sofre limitação de CPU e o desempenho de leitura da consulta precisa de ser analisado. Também ajuda a entender o perfil de execução da consulta a partir de uma perspetiva de nível segmentado.

Observação

Atualmente, o número capturado de divisões por trabalhador é limitado a 1000 devido a restrições de tamanho dos dados produzidos. Se o número de divisões por trabalhador para a consulta exceder esse limite, as 1000 divisões mais longas serão retornadas.

Como acessar as estatísticas de varredura

Uma vez que a propriedade da sessão é definida, as consultas subsequentes na sessão começam a capturar estatísticas dos operadores de origem sempre que estas estiverem disponíveis. Há várias maneiras pelas quais os usuários podem consumir e analisar as estatísticas de varredura geradas para uma consulta.

Consulta Json

A guia JSON na página de Detalhes da consulta fornece a representação JSON da consulta, que inclui estatísticas sobre cada estágio e pipeline. Quando a propriedade session é definida, o json inclui um novo campo chamado scanStats em queryStats.operatorSummaries[*]. A matriz contém um objeto por instância de operador.

O exemplo a seguir mostra um json para uma consulta usando hive connector e estatísticas de varredura habilitadas.

Observação

O resumo das estatísticas da verificação inclui o "splitInfo", que é preenchido pelo conector. Isso permite que os usuários controlem quais informações sobre a loja eles gostariam de incluir em seus conectores personalizados.

Captura de tela mostrando o resumo do desempenho da consulta.

Interface de Utilizador de Estatísticas de Varredura

Você pode encontrar uma nova guia chamada Scan Stats na página Detalhes da Consulta que visualiza as estatísticas produzidas por esse recurso e fornece informações sobre o desempenho de divisão de tarefas de cada trabalhador. A página permite que os usuários visualizem o perfil de execução do trino para a consulta com informações como, leituras simultâneas ao longo do tempo e taxa de transferência.

Captura de tela mostrando a adição do status da verificação.

O exemplo a seguir mostra uma página para uma consulta com estatísticas de varredura habilitadas.

Captura de ecrã a mostrar o separador de estado da análise.

Usando o registrador do Microsoft Query

O Microsoft Query logger tem suporte interno para esse recurso. Quando habilitado com esse recurso, o plug-in do registrador de consultas preenche uma tabela chamada operatorstats juntamente com a tabela de eventos de consulta, essa tabela é desnormalizada para que cada instância do operador seja uma linha para cada consulta.