Utilizar o Browser de Tarefas e o Visualizador de Tarefas do Azure Data Lake Analytics
Importante
O Azure Data Lake Analytics descontinuado a 29 de fevereiro de 2024. Saiba mais com este anúncio.
Para análise de dados, a sua organização pode utilizar o Azure Synapse Analytics ou o Microsoft Fabric.
O serviço Data Lake Analytics do Azure arquiva as tarefas submetidas num arquivo de consultas. Neste artigo, vai aprender a utilizar o Job Browser e a Vista de Trabalho no Azure Data Lake Tools para Visual Studio para encontrar as informações históricas da tarefa.
Por predefinição, o serviço Data Lake Analytics arquiva as tarefas durante 30 dias. O período de expiração pode ser configurado a partir do portal do Azure ao configurar a política de expiração personalizada. Não poderá aceder às informações da tarefa após a expiração.
Pré-requisitos
Veja Os pré-requisitos do Data Lake Tools para Visual Studio.
Abrir o Browser de Tarefas
Aceda ao Browser de Tarefas através do Server Explorer>Azure> Data Lake Analytics> Jobs no Visual Studio. Com o Browser de Tarefas, pode aceder ao arquivo de consultas de uma conta Data Lake Analytics. O Browser de Tarefas apresenta o Arquivo de Consultas à esquerda, mostrando as informações básicas da tarefa e a Vista de Trabalho à direita com informações detalhadas sobre a tarefa.
Vista de Tarefa
A Vista de Trabalho mostra as informações detalhadas de uma tarefa. Para abrir uma tarefa, pode fazer duplo clique numa tarefa no Browser de Tarefas ou abri-la a partir do menu Data Lake ao clicar em Vista de Tarefa. Deverá ver uma caixa de diálogo preenchida com o URL da tarefa.
A Vista de Trabalho contém:
Resumo da Tarefa
Atualize a Vista de Trabalho para ver as informações mais recentes sobre a execução de tarefas.
Estado da Tarefa (gráfico):
O Estado da Tarefa descreve as fases da tarefa:
Preparação: carregue o script para a cloud, compilando e otimizando o script com o serviço de compilação.
Em fila: as tarefas são colocadas em fila quando estão à espera de recursos suficientes ou as tarefas excedem a limitação máxima de tarefas simultâneas por conta. A definição de prioridade determina a sequência de tarefas em fila - quanto menor for o número, maior será a prioridade.
Em execução: a tarefa está a ser executada na sua conta Data Lake Analytics.
Finalização: a tarefa está a ser concluída (por exemplo, a finalizar o ficheiro).
A tarefa pode falhar em todas as fases. Por exemplo, erros de compilação na fase de preparação, erros de tempo limite na fase em fila e erros de execução na fase em execução, etc.
Informações Básicas
As informações básicas da tarefa são apresentadas na parte inferior do painel Resumo da Tarefa.
- Resultado da Tarefa: Com êxito ou com falha. A tarefa pode falhar em todas as fases.
- Duração Total: Tempo do relógio de parede (duração) entre a hora de submissão e a hora de fim.
- Tempo Total de Computação: a soma de cada tempo de execução de vértice, pode considerá-la como a hora em que a tarefa é executada apenas num vértice. Veja Total Vértices para obter mais informações sobre o vértice.
- Submeter/Iniciar/Hora de Fim: a hora em que o serviço Data Lake Analytics recebe a submissão da tarefa/começa a executar a tarefa/termina a tarefa com êxito ou não.
- Compilação/Em fila/Execução: tempo do relógio de parede despendido durante a fase Preparação/Fila/Execução.
- Conta: a conta Data Lake Analytics utilizada para executar a tarefa.
- Autor: o utilizador que submeteu a tarefa, pode ser uma conta de pessoa real ou uma conta de sistema.
- Prioridade: a prioridade do trabalho. Quanto menor for o número, maior será a prioridade. Afeta apenas a sequência das tarefas na fila. Definir uma prioridade mais alta não impede a execução de tarefas.
- Paralelismo: o número máximo pedido de Unidades de Data Lake Analytics do Azure (ADLAUs) simultâneas, também conhecido como vértices. Atualmente, um vértice é igual a uma VM com dois núcleos virtuais e uma RAM de seis GB, embora possa ser atualizado em futuras atualizações Data Lake Analytics.
- Bytes Left: Bytes que precisam de ser processados até que a tarefa seja concluída.
- Bytes lidos/escritos: Bytes que foram lidos/escritos desde que a tarefa começou a ser executada.
- Total de vértices: a tarefa é dividida em muitas partes do trabalho, cada peça de trabalho é chamada de vértice. Este valor descreve o número de peças de trabalho que a tarefa consiste. Pode considerar um vértice como uma unidade de processo básica, também conhecida como Unidade de Data Lake Analytics do Azure (ADLAU) e os vértices podem ser executados em paralelismo.
- Concluído/Em Execução/Com Falhas: a contagem de vértices concluídos/em execução/com falhas. Os vértices podem falhar devido a falhas no código do utilizador e no sistema, mas as repetições do sistema falharam automaticamente algumas vezes. Se o vértice continuar a falhar depois de tentar novamente, todo o trabalho falhará.
Gráfico de Tarefas
Um script U-SQL representa a lógica de transformar dados de entrada em dados de saída. O script é compilado e otimizado para um plano de execução física na fase de Preparação. O Job Graph é para mostrar o plano de execução física. O diagrama seguinte ilustra o processo:
Um trabalho é dividido em muitos pedaços de trabalho. Cada peça de trabalho é denominada Vértice. Os vértices são agrupados como Super Vértice (também conhecido como fase) e visualizados como Gráfico de Tarefas. Os cartazes de palco verde no gráfico de tarefas mostram os palcos.
Cada vértice numa fase está a fazer o mesmo tipo de trabalho com diferentes partes dos mesmos dados. Por exemplo, se tiver um ficheiro com dados de um TB e existirem centenas de vértices a ler a partir do mesmo, cada um deles está a ler um segmento. Esses vértices são agrupados na mesma fase e fazem o mesmo trabalho em diferentes partes do mesmo ficheiro de entrada.
-
Numa fase específica, alguns números são apresentados no cartaz.
Extração SV1: o nome de uma fase, com o nome de um número e o método de operação.
84 vértices: a contagem total de vértices nesta fase. A figura indica quantas peças de trabalho estão divididas nesta fase.
12,90 s/vértice: o tempo médio de execução do vértice para esta fase. Este valor é calculado por SOMA (cada tempo de execução de vértices) /(contagem total de Vértices). O que significa que se puder atribuir todos os vértices executados em paralelismo, toda a fase será concluída em 12,90 s. Também significa que se todo o trabalho nesta fase for feito em série, o custo será #vertices * tempo AVG.
850.895 linhas escritas: contagem total de linhas escrita nesta fase.
R/W: Quantidade de dados lidos/Escritos nesta fase em bytes.
Cores: as cores são utilizadas na fase para indicar um estado de vértice diferente.
- Verde indica que o vértice foi bem-sucedido.
- Laranja indica que o vértice foi repetido novamente. O vértice repetido falhou, mas é repetido automaticamente e com êxito pelo sistema e a fase geral é concluída com êxito. Se o vértice tiver repetido, mas continuar a falhar, a cor fica vermelha e todo o trabalho falhou.
- Vermelho indica que falhou, o que significa que um determinado vértice foi repetido algumas vezes pelo sistema, mas mesmo assim falhou. Este cenário faz com que toda a tarefa falhe.
- Azul significa que um determinado vértice está em execução.
- Branco indica que o vértice está a Aguardar. O vértice pode estar à espera de ser agendado assim que uma ADLAU ficar disponível ou poderá estar à espera de entrada, uma vez que os dados de entrada poderão não estar prontos.
Pode encontrar mais detalhes para a fase ao pairar o cursor do rato por um estado:
Vértices: descreve os detalhes dos vértices, por exemplo, quantos vértices no total, quantos vértices foram concluídos, se falharam ou ainda estão em execução/espera, etc.
Pod de leitura cruzada/intra de dados: os ficheiros e os dados são armazenados em vários pods no sistema de ficheiros distribuído. O valor aqui descreve a quantidade de dados que foram lidos no mesmo pod ou em pod cruzado.
Tempo total de computação: a soma de cada tempo de execução de vértice na fase, pode considerá-lo como o tempo necessário se todo o trabalho na fase for executado apenas num vértice.
Dados e linhas escritos/lidos: indica a quantidade de dados ou linhas que foram lidos/escritos ou que precisam de ser lidos.
Falhas de leitura de vértices: descreve quantos vértices falharam durante a leitura dos dados.
Eliminações duplicadas de vértice: se um vértice for demasiado lento, o sistema poderá agendar vários vértices para executar a mesma parte do trabalho. Os vértices redundantes serão eliminados assim que um dos vértices for concluído com êxito. A eliminação de duplicados de vértice regista o número de vértices que são eliminados como duplicações na fase.
Revogações de vértice: o vértice foi bem-sucedido, mas será novamente executado mais tarde devido a alguns motivos. Por exemplo, se o vértice a jusante perder dados de entrada intermédios, pedirá ao vértice a montante que volte a ser executado.
Execuções de agendamento de vértices: o tempo total que os vértices foram agendados.
Os dados de Vértice Mín/Média/Máx. são lidos: o mínimo/média/máximo de cada vértice de leitura de dados.
Duração: a hora do relógio de parede que uma fase demora, tem de carregar o perfil para ver este valor.
Reprodução de Tarefa
Data Lake Analytics executa tarefas e arquiva os vértices que executam as informações das tarefas, como quando os vértices são iniciados, parados, com falhas e como são repetidos, etc. Todas as informações são automaticamente registadas no arquivo de consultas e armazenadas no respetivo Perfil de Tarefa. Pode transferir o Perfil de Tarefa através de "Carregar Perfil" na Vista de Tarefa e pode ver a Reprodução de Tarefas depois de transferir o Perfil de Tarefa.
A Reprodução de Tarefas é uma visualização epítome do que aconteceu no cluster. Ajuda-o a watch progresso da execução de trabalhos e a detetar visualmente anomalias de desempenho e estrangulamentos num curto espaço de tempo (normalmente menos de 30).
Visualização do Mapa Térmico da Tarefa
O Mapa Térmico da Tarefa pode ser selecionado através da lista pendente Apresentação no Gráfico de Tarefas.
Mostra o mapa térmico de E/S, tempo e débito de uma tarefa, através do qual pode encontrar onde a tarefa passa a maior parte do tempo, ou se o seu trabalho é um trabalho de limite de E/S, etc.
- Progresso: O progresso da execução da tarefa, veja Informações em informações de fase.
- Dados lidos/escritos: o mapa térmico do total de dados lidos/escritos em cada fase.
- Tempo de computação: o mapa térmico de SUM (cada tempo de execução de vértice), pode considerar isto como quanto tempo demoraria se todo o trabalho na fase fosse executado com apenas um vértice.
- Tempo médio de execução por nó: o mapa térmico de SOMA (cada tempo de execução de vértice) / (Número de Vértice). O que significa que se puder atribuir todos os vértices executados em paralelismo, todo o palco será feito neste período de tempo.
- Débito de entrada/saída: o mapa térmico do débito de entrada/saída de cada fase, pode confirmar se a sua tarefa é uma tarefa vinculada a E/S através disto.
-
Operações de Metadados
Pode realizar algumas operações de metadados no script U-SQL, como criar uma base de dados, remover uma tabela, etc. Estas operações são apresentadas na Operação de Metadados após a compilação. Pode encontrar asserções, criar entidades e remover entidades aqui.
Histórico de Estados
O Histórico de Estados também é visualizado no Resumo da Tarefa, mas pode obter mais detalhes aqui. Pode encontrar as informações detalhadas, como quando a tarefa é preparada, em fila, iniciada em execução, terminada. Também pode descobrir quantas vezes a tarefa foi compilada (os CcsAttempts: 1), quando é que a tarefa é realmente enviada para o cluster (Detalhe: Enviar tarefa para o cluster), etc.
Diagnóstico
A ferramenta diagnostica a execução de tarefas automaticamente. Receberá alertas quando existirem alguns erros ou problemas de desempenho nas suas tarefas. Tenha em atenção que tem de transferir o Perfil para obter informações completas aqui.
- Avisos: é apresentado um alerta aqui com um aviso do compilador. Pode selecionar a ligação "x issue(s)" para ter mais detalhes assim que o alerta for apresentado.
- O vértice é demasiado longo: se algum vértice ficar sem tempo (por exemplo, 5 horas), os problemas serão encontrados aqui.
- Utilização de recursos: se tiver alocado mais ou menos Paralelismo suficiente do que o necessário, os problemas serão encontrados aqui. Também pode selecionar Utilização de recursos para ver mais detalhes e realizar cenários de hipóteses para encontrar uma melhor alocação de recursos (para obter mais detalhes, veja este guia).
- Verificação de memória: se algum vértice utilizar mais de 5 GB de memória, os problemas serão encontrados aqui. A execução da tarefa pode ser eliminada pelo sistema se utilizar mais memória do que a limitação do sistema.
Detalhes da Tarefa
Detalhes da Tarefa mostra as informações detalhadas da tarefa, incluindo Script, Recursos e Vista de Execução de Vértice.
Script
O script U-SQL da tarefa é armazenado no arquivo de consultas. Pode ver o script U-SQL original e submetê-lo novamente, se necessário.
Recursos
Pode encontrar as saídas de compilação de tarefas armazenadas no arquivo de consultas através de Recursos. Por exemplo, pode encontrar "algebra.xml" que é utilizado para mostrar o Gráfico de Tarefas, as assemblagens que registou, etc. aqui.
Vista de execução de vértice
Mostra os detalhes de execução dos vértices. O Perfil de Tarefa arquiva todos os registos de execução de vértices, tais como o total de dados lidos/escritos, runtime, estado, etc. Através desta vista, pode obter mais detalhes sobre como uma tarefa foi executada. Para obter mais informações, veja Utilizar a Vista de Execução de Vértice nas Ferramentas do Data Lake para Visual Studio.
Passos Seguintes
- Para obter informações de diagnóstico de registo, veja Accessing diagnostics logs for Azure Data Lake Analytics (Aceder aos registos de diagnóstico do Azure Data Lake Analytics)
- Para ver uma consulta mais complexa, consulte Analisar registos de site através da Análise do Azure Data Lake.
- Para utilizar a vista de execução de vértice, veja Utilizar a Vista de Execução de Vértice nas Ferramentas do Data Lake para Visual Studio