Partilhar via


Ver métricas de computação

Este artigo explica como usar a ferramenta de métricas de computação nativa na interface do usuário do Azure Databricks para coletar hardware chave e métricas do Spark. A interface do usuário de métricas está disponível para computação para todos os fins e trabalhos.

Nota

A computação sem servidor para blocos de anotações e trabalhos usa insights de consulta em vez da interface do usuário de métricas. Para obter mais informações sobre métricas de computação sem servidor, consulte Exibir insights de consulta.

As métricas estão disponíveis quase em tempo real com um atraso normal de menos de um minuto. As métricas são armazenadas no armazenamento gerenciado pelo Azure Databricks, não no armazenamento do cliente.

Como essas novas métricas são diferentes do Ganglia?

A nova interface do usuário de métricas de computação tem uma visão mais abrangente do uso de recursos do cluster, incluindo o consumo do Spark e os processos internos do Databricks. Em contraste, a interface do usuário Ganglia mede apenas o consumo de contêineres Spark. Essa diferença pode resultar em discrepâncias nos valores métricos entre as duas interfaces.

Acessar a interface do usuário de métricas de computação

Para exibir a interface do usuário de métricas de computação:

  1. Clique em Calcular na barra lateral.
  2. Clique no recurso de computação para o qual deseja visualizar as métricas.
  3. Clique na guia Métricas .

Métricas de cluster das últimas 24 horas

As métricas de hardware são mostradas por padrão. Para visualizar as métricas do Spark, clique no menu suspenso Hardware e selecione Spark. Você também pode selecionar GPU se a instância estiver habilitada para GPU.

Filtrar métricas por período de tempo

Você pode visualizar métricas históricas selecionando um intervalo de tempo usando o filtro do seletor de datas. As métricas são coletadas a cada minuto, para que você possa filtrar por qualquer intervalo de dia, hora ou minuto dos últimos 30 dias. Clique no ícone de calendário para selecionar entre intervalos de dados predefinidos ou clique dentro da caixa de texto para definir valores personalizados.

Nota

Os intervalos de tempo exibidos nos gráficos são ajustados com base no período de tempo que você está visualizando. A maioria das métricas são médias baseadas no intervalo de tempo que você está visualizando no momento.

Você também pode obter as métricas mais recentes clicando no botão Atualizar .

Exibir métricas no nível do nó

Você pode exibir métricas para nós individuais clicando no menu suspenso Computação e selecionando o nó para o qual deseja visualizar as métricas. As métricas da GPU só estão disponíveis no nível do nó individual. As métricas do Spark não estão disponíveis para nós individuais.

Nota

Se você não selecionar um nó específico, o resultado será calculado em média em todos os nós dentro de um cluster (incluindo o driver).

Gráficos métricos de hardware

Os seguintes gráficos de métricas de hardware estão disponíveis para exibição na interface do usuário de métricas de computação:

  • Distribuição de carga do servidor: este gráfico mostra a utilização da CPU no último minuto para cada nó.
  • Utilização da CPU: a percentagem de tempo que a CPU passou em cada modo, com base no custo total de segundos da CPU. A métrica é calculada com base no intervalo de tempo exibido no gráfico. A seguir estão os modos rastreados:
    • guest: Se você estiver executando VMs, a CPU que essas VMs usam
    • iowait: Tempo gasto à espera de E/S
    • ocioso: Tempo que a CPU não tinha nada para fazer
    • irq: Tempo gasto em pedidos de interrupção
    • nice: Tempo utilizado por processos que têm uma simpatia positiva, ou seja, uma prioridade menor do que outras tarefas
    • softirq: Tempo gasto em solicitações de interrupção de software
    • roubar: se você for uma VM, o tempo que outras VMs "roubaram" de suas CPUs
    • system: O tempo gasto no kernel
    • user: O tempo gasto no userland
  • Utilização da memória: o uso total de memória por cada modo, medido em bytes e calculado em média com base no intervalo de tempo exibido no gráfico. Os seguintes tipos de uso são rastreados:
    • usado: memória usada (incluindo memória usada por processos em segundo plano em execução em uma computação)
    • livre: memória não utilizada
    • buffer: Memória usada pelos buffers do kernel
    • em cache: Memória usada pelo cache do sistema de arquivos no nível do sistema operacional
  • Utilização de troca de memória: O uso total de troca de memória por cada modo, medido em bytes e calculado em média com base em qualquer intervalo de tempo exibido no gráfico.
  • Espaço livre do sistema de arquivos: o uso total do sistema de arquivos por cada ponto de montagem, medido em bytes e calculado em média com base no intervalo de tempo exibido no gráfico.
  • Recebido através da rede: O número de bytes recebidos através da rede por cada dispositivo, calculados em média com base no intervalo de tempo exibido no gráfico.
  • Transmitido através da rede: O número de bytes transmitidos através da rede por cada dispositivo, calculados em média com base no intervalo de tempo exibido no gráfico.
  • Número de nós ativos: mostra o número de nós ativos em cada carimbo de data/hora para o cálculo determinado.

Gráficos de métricas do Spark

Os seguintes gráficos de métricas do Spark estão disponíveis para exibição na interface do usuário de métricas de computação:

  • Distribuição de carga do servidor: este gráfico mostra a utilização da CPU no último minuto para cada nó.
  • Tarefas ativas: o número total de tarefas executadas em um determinado momento, calculado em média com base em qualquer intervalo de tempo exibido no gráfico.
  • Total de tarefas com falha: o número total de tarefas que falharam em executores, calculado em média com base em qualquer intervalo de tempo exibido no gráfico.
  • Total de tarefas concluídas: o número total de tarefas concluídas em executores, calculado em média com base em qualquer intervalo de tempo exibido no gráfico.
  • Número total de tarefas: O número total de todas as tarefas (em execução, falhadas e concluídas) em executores, calculado em média com base em qualquer intervalo de tempo exibido no gráfico.
  • Total de leitura aleatória: o tamanho total dos dados de leitura aleatória, medido em bytes e calculado em média com base em qualquer intervalo de tempo exibido no gráfico. Shuffle read significa a soma de dados de leitura serializados em todos os executores no início de um estágio.
  • Gravação aleatória total: o tamanho total dos dados de gravação aleatória, medido em bytes e calculado em média com base em qualquer intervalo de tempo exibido no gráfico. Shuffle Write é a soma de todos os dados serializados escritos em todos os executores antes da transmissão (normalmente no final de um estágio).
  • Duração total da tarefa: o tempo total decorrido que a JVM gastou executando tarefas em executores, medido em segundos e calculado em média com base em qualquer intervalo de tempo exibido no gráfico.

Gráficos métricos da GPU

Nota

As métricas da GPU só estão disponíveis no Databricks Runtime ML 13.3 e superior.

Os seguintes gráficos de métricas da GPU estão disponíveis para exibição na interface do usuário de métricas de computação:

  • Distribuição de carga do servidor: este gráfico mostra a utilização da CPU no último minuto para cada nó.
  • Utilização do decodificador por GPU: a porcentagem de utilização do decodificador de GPU, calculada em média com base em qualquer intervalo de tempo exibido no gráfico.
  • Utilização do codificador por GPU: a porcentagem de utilização do codificador de GPU, calculada em média com base em qualquer intervalo de tempo exibido no gráfico.
  • Bytes de utilização da memória do buffer de quadros por GPU: a utilização da memória do buffer de quadros, medida em bytes e calculada em média com base no intervalo de tempo exibido no gráfico.
  • Utilização da memória por GPU: a percentagem de utilização da memória GPU, calculada em média com base no intervalo de tempo apresentado no gráfico.
  • Utilização por GPU: a porcentagem de utilização da GPU, calculada em média com base em qualquer intervalo de tempo exibido no gráfico.

Resolução de Problemas

Se você vir métricas incompletas ou ausentes por um período, pode ser um dos seguintes problemas:

  • Uma interrupção no serviço Databricks responsável por consultar e armazenar métricas.
  • Problemas de rede do lado do cliente.
  • O cálculo está ou estava em um estado insalubre.