Compartilhar via


Habilitar estatísticas de verificação para consultas

Observação

Desativaremos o Microsoft Azure HDInsight no AKS em 31 de janeiro de 2025. Para evitar o encerramento abrupto das suas cargas de trabalho, você precisará migrá-las para o Microsoft Fabric ou para um produto equivalente do Azure antes de 31 de janeiro de 2025. Os clusters restantes em sua assinatura serão interrompidos e removidos do host.

Somente o suporte básico estará disponível até a data de desativação.

Importante

Esse recurso está atualmente na visualização. Os Termos de uso complementares para versões prévias do Microsoft Azure incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, confira Informações sobre a versão prévia do Azure HDInsight no AKS. No caso de perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para ver mais atualizações sobre a Comunidade do Azure HDInsight.

Muitas vezes, as equipes de dados são necessárias para investigar o desempenho ou otimizar consultas para melhorar a utilização de recursos ou atender aos requisitos de negócios.

Uma nova capacidade foi adicionada ao Trino para HDInsight no AKS que permite que o usuário capture estatísticas de verificação para qualquer conector. Essa funcionalidade apresenta insights mais profundos sobre o perfil de desempenho de consulta além do que está disponível nas estatísticas produzidas pelo Trino.

Você pode habilitar esse recurso usando a propriedade de sessão collect_raw_scan_statistics e seguindo o comando do Trino:

SET SESSION collect_raw_scan_statistics=true

Uma vez habilitados, os operadores de origem na consulta, como TableScanOperator, ScanFilterAndProject etc. têm estatísticas sobre verificações de dados. A granularidade é por instância de operador em um pipeline.

Dica

As estatísticas de verificação são úteis para identificar gargalos quando o cluster ou a consulta não está restrito à CPU e o desempenho de leitura da consulta precisa ser investigado. Ele também ajuda a entender o perfil de execução da consulta de uma perspectiva de nível dividido.

Observação

Atualmente, o número capturado de divisões por trabalho é limitado a 1000 devido a restrições de tamanho de dados produzidos. Se o número de divisões por trabalho para a consulta exceder esse limite, as 1000 divisões de execução mais longas serão retornadas.

Como acessar estatísticas de verificação

Depois que a propriedade de sessão for definida, as consultas subsequentes na sessão começarão a capturar estatísticas de operadores de origem sempre que estiverem disponíveis. Há várias maneiras dos usuários consumirem e analisarem as estatísticas de verificação geradas para uma consulta.

Consultar JSON

A guia Json na página de detalhes da consulta fornece a representação JSON da consulta, que incluiu estatísticas em cada estágio, pipeline da consulta. Quando a propriedade de sessão é definida, o json inclui um novo campo chamado scanStats no queryStats.operatorSummaries[*]. A matriz contém um objeto por instância do operador.

O exemplo a seguir mostra um json para uma consulta usando hive connector e estatísticas de verificação habilitadas.

Observação

O resumo das estatísticas de verificação inclui splitInfo, que é preenchido pelo conector. Isso permite que os usuários controlem quais informações sobre o repositório gostariam de incluir em seus conectores personalizados.

Captura de tela mostrando o resumo do desempenho da consulta.

Interface do usuário de Estatísticas de Verificação

Você pode encontrar uma nova guia chamada Scan Stats na página de detalhes de consulta que visualiza as estatísticas produzidas por esse recurso e fornece insights sobre o desempenho da granularidade dividida de cada trabalho. A página permite que os usuários exibam o perfil de execução do Trino para a consulta com informações como leituras simultâneas ao longo do tempo e taxa de transferência.

Captura de tela mostrando a adição de status da verificação.

O exemplo a seguir mostra uma página de uma consulta com estatísticas de verificação habilitadas.

Captura de tela mostrando a guia status da verificação.

Usando o agente Query da Microsoft**

O agente Query da Microsoft tem suporte interno para esse recurso. Quando habilitado com esse recurso, o plug-in do agente de consulta popula uma tabela chamada operatorstats junto com a tabela de eventos de consulta, essa tabela é desnormalizada para que cada instância do operador seja uma linha para cada consulta.