Compartilhar via


Habilitar estatísticas de escaneamento para consultas

Importante

O Azure HDInsight no AKS se aposentou em 31 de janeiro de 2025. Saiba mais com este comunicado.

Você precisa migrar suas cargas de trabalho para microsoft fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esse recurso está atualmente em versão prévia. Os termos de uso complementares para o Microsoft Azure Previews incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, consulte Azure HDInsight em informações de visualização do AKS. Para perguntas ou sugestões de funcionalidades, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para mais atualizações na Comunidade Azure HDInsight .

Muitas vezes, as equipes de dados são necessárias para investigar o desempenho ou otimizar consultas para melhorar a utilização de recursos ou atender aos requisitos de negócios.

Um novo recurso foi adicionado ao Trino para HDInsight no AKS que permite que o usuário capture estatísticas de varredura para qualquer conector. Essa funcionalidade fornece insights mais profundos sobre o perfil de desempenho de consulta além do que está disponível nas estatísticas produzidas pelo Trino.

Você pode habilitar esse recurso usando propriedade de sessãocollect_raw_scan_statisticse seguindo o comando Trino:

SET SESSION collect_raw_scan_statistics=true

Uma vez habilitados, os operadores de origem na consulta, como TableScanOperator, ScanFilterAndProject etc., têm estatísticas sobre varreduras de dados, e a granularidade é por instância de operador em um pipeline.

Dica

As estatísticas de varredura são úteis para identificar gargalos quando o cluster ou a consulta não é limitado pela CPU e o desempenho de leitura da consulta precisa ser investigado. Ele também ajuda a entender o perfil de execução da consulta de uma perspectiva de nível dividido.

Nota

Atualmente, o número capturado de divisões por trabalhador é limitado a 1000 devido a restrições de tamanho dos dados produzidos. Quando o número de divisões por trabalhador para a consulta excede esse limite, as 1000 divisões de execução mais longas são retornadas.

Como acessar estatísticas de digitalização

Depois que a propriedade de sessão for definida, as consultas subsequentes na sessão começarão a capturar estatísticas de operadores de origem sempre que estiverem disponíveis. Há várias maneiras de os usuários consumirem e analisarem as estatísticas de escaneamento geradas para uma consulta.

Consulta Json

A guia Json na página de detalhes da consulta fornece a representação JSON da consulta, incluindo estatísticas de cada estágio e pipeline da consulta. Quando a propriedade de sessão é definida, o json inclui um novo campo chamado scanStats em queryStats.operatorSummaries[*]. A matriz contém um objeto por instância do operador.

O exemplo a seguir mostra um json para uma consulta usando hive connector e estatísticas de verificação habilitadas.

Nota

O resumo das estatísticas de verificação inclui splitInfo, que é preenchido pelo conector. Isso permite que os usuários controlem quais informações sobre o repositório gostariam de incluir em seus conectores personalizados.

Captura de tela mostrando o resumo do desempenho da consulta.

de interface do usuário do Scan Statistics

Você pode encontrar uma nova guia chamada Scan Stats na página de detalhes da consulta, a qual visualiza as estatísticas produzidas por esse recurso e fornece insights sobre o desempenho de distribuição de carga de cada trabalhador. A página permite que os usuários exibam o perfil de execução do Trino para a consulta, com informações como leituras concorrentes ao longo do tempo e taxa de transferência.

Captura de tela mostrando a adição do status de verificação.

O exemplo a seguir mostra uma página de consulta com estatísticas de verificação ativadas.

Captura de tela mostrando a guia de status da verificação.

Usando o registrador do Microsoft Query**

O registrador do Microsoft Query tem suporte interno para esse recurso. Quando habilitado com esse recurso, o plug-in de registro de consultas preenche uma tabela chamada operatorstats, além da tabela de eventos de consulta. Esta tabela é desnormalizada, de modo que cada instância de operador corresponda a uma linha para cada consulta.