Habilitar estatísticas de verificação para consultas
Observação
Desativaremos o Microsoft Azure HDInsight no AKS em 31 de janeiro de 2025. Para evitar o encerramento abrupto das suas cargas de trabalho, você precisará migrá-las para o Microsoft Fabric ou para um produto equivalente do Azure antes de 31 de janeiro de 2025. Os clusters restantes em sua assinatura serão interrompidos e removidos do host.
Somente o suporte básico estará disponível até a data de desativação.
Importante
Esse recurso está atualmente na visualização. Os Termos de uso complementares para versões prévias do Microsoft Azure incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, confira Informações sobre a versão prévia do Azure HDInsight no AKS. No caso de perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para ver mais atualizações sobre a Comunidade do Azure HDInsight.
Muitas vezes, as equipes de dados são necessárias para investigar o desempenho ou otimizar consultas para melhorar a utilização de recursos ou atender aos requisitos de negócios.
Uma nova capacidade foi adicionada ao Trino para HDInsight no AKS que permite que o usuário capture estatísticas de verificação para qualquer conector. Essa funcionalidade apresenta insights mais profundos sobre o perfil de desempenho de consulta além do que está disponível nas estatísticas produzidas pelo Trino.
Você pode habilitar esse recurso usando a propriedade de sessão collect_raw_scan_statistics
e seguindo o comando do Trino:
SET SESSION collect_raw_scan_statistics=true
Uma vez habilitados, os operadores de origem na consulta, como TableScanOperator
, ScanFilterAndProject
etc. têm estatísticas sobre verificações de dados. A granularidade é por instância de operador em um pipeline.
Dica
As estatísticas de verificação são úteis para identificar gargalos quando o cluster ou a consulta não está restrito à CPU e o desempenho de leitura da consulta precisa ser investigado. Ele também ajuda a entender o perfil de execução da consulta de uma perspectiva de nível dividido.
Observação
Atualmente, o número capturado de divisões por trabalho é limitado a 1000 devido a restrições de tamanho de dados produzidos. Se o número de divisões por trabalho para a consulta exceder esse limite, as 1000 divisões de execução mais longas serão retornadas.
Como acessar estatísticas de verificação
Depois que a propriedade de sessão for definida, as consultas subsequentes na sessão começarão a capturar estatísticas de operadores de origem sempre que estiverem disponíveis. Há várias maneiras dos usuários consumirem e analisarem as estatísticas de verificação geradas para uma consulta.
Consultar JSON
A guia Json na página de detalhes da consulta fornece a representação JSON da consulta, que incluiu estatísticas em cada estágio, pipeline da consulta. Quando a propriedade de sessão é definida, o json inclui um novo campo chamado scanStats
no queryStats.operatorSummaries[*]
. A matriz contém um objeto por instância do operador.
O exemplo a seguir mostra um json para uma consulta usando hive connector
e estatísticas de verificação habilitadas.
Observação
O resumo das estatísticas de verificação inclui splitInfo, que é preenchido pelo conector. Isso permite que os usuários controlem quais informações sobre o repositório gostariam de incluir em seus conectores personalizados.
Interface do usuário de Estatísticas de Verificação
Você pode encontrar uma nova guia chamada Scan Stats
na página de detalhes de consulta que visualiza as estatísticas produzidas por esse recurso e fornece insights sobre o desempenho da granularidade dividida de cada trabalho. A página permite que os usuários exibam o perfil de execução do Trino para a consulta com informações como leituras simultâneas ao longo do tempo e taxa de transferência.
O exemplo a seguir mostra uma página de uma consulta com estatísticas de verificação habilitadas.
Usando o agente Query da Microsoft**
O agente Query da Microsoft tem suporte interno para esse recurso. Quando habilitado com esse recurso, o plug-in do agente de consulta popula uma tabela chamada operatorstats
junto com a tabela de eventos de consulta, essa tabela é desnormalizada para que cada instância do operador seja uma linha para cada consulta.