Monitorar pipelines do Azure Data Factory

Concluído

Depois de criar e publicar um pipeline no Azure Data Factory, você pode associá-lo a um gatilho ou iniciar manualmente uma execução sob demanda. Você pode monitorar todas as execuções de pipeline nativamente na experiência do usuário do Azure Data Factory. Para abrir a experiência de monitoramento, selecione o bloco Monitor & Manage na folha data factory do portal do Azure. Se você já estiver na UX do Azure Data Factory, clique no ícone Monitor na barra lateral esquerda.

Monitorizar execuções de pipeline

A exibição de monitoramento padrão é a lista de execuções de pipeline acionadas no período de tempo selecionado. Pode alterar o intervalo de tempo e filtrar por estado, nome do pipeline ou anotação. Passe o cursor sobre a execução específica do pipeline para obter ações específicas da execução, como a repetição e o relatório de consumo.

List view for monitoring pipeline runs

A grade de execução do pipeline contém as seguintes colunas:

Nome da coluna Descrição
Nome do Pipeline Nome do gasoduto
Início da Execução Data e hora de início da execução do pipeline (MM/DD/AAAA, HH:MM:SS AM/PM)
Fim da corrida Data e hora de término da execução do pipeline (MM/DD/AAAA, HH:MM:SS AM/PM)
Duration Duração da execução (HH:MM:SS)
Acionada Por O nome do gatilho que iniciou o pipeline
Status Falhado, bem-sucedido, em andamento, cancelado ou enfileirado
Anotações Tags filtráveis associadas a um pipeline
Parâmetros Parâmetros para a execução do pipeline (pares nome/valor)
Error Se o pipeline falhou, o erro de execução
o ID da Execução ID da execução do pipeline

Você precisa selecionar manualmente o botão Atualizar para atualizar a lista de pipeline e execução de atividades. A atualização automática não é suportada no momento.

Refresh button

Para exibir os resultados de uma execução de depuração, selecione a guia Depurar .

Select the View active debug runs icon

Monitorização de execuções de atividade

Para obter uma visão detalhada das execuções de atividade individuais de uma execução de pipeline específica, clique no nome do pipeline.

View activity runs

O modo de exibição de lista mostra execuções de atividade que correspondem a cada execução de pipeline. Passe o cursor sobre a execução da atividade específica para obter informações específicas da execução, como a entrada JSON, a saída JSON e experiências detalhadas de monitoramento específico da atividade. Atividades como fluxo de dados, cópia e Azure Databricks têm uma exibição dedicada que pode ser vista clicando no ícone de óculos.

View the activity runs in the monitoring tool

Nome da coluna Descrição
Nome da Atividade Nome da atividade dentro do pipeline
Tipo de Atividade Tipo de atividade, como Copy, ExecuteDataFlow ou AzureMLExecutePipeline
Ações Ícones que permitem ver informações de entrada JSON, informações de saída JSON ou experiências detalhadas de monitoramento específico da atividade
Início da Execução Data e hora de início da execução da atividade (MM/DD/AAAA, HH:MM:SS AM/PM)
Duration Duração da execução (HH:MM:SS)
Status Falhado, bem-sucedido, em andamento ou cancelado
Runtime de Integração Em qual tempo de execução de integração a atividade foi executada
Propriedades do Utilizador Propriedades definidas pelo usuário da atividade
Error Se a atividade falhou, o erro de execução
o ID da Execução ID da atividade executada

Se uma atividade falhou, você pode ver a mensagem de erro detalhada clicando no ícone na coluna de erro.

Viewing activity run errors

Visualização de Gantt

Um gráfico Gantt é uma vista que permite ver o histórico de execuções ao longo de um intervalo de tempo. Ao mudar para uma Vista Gantt, verá todas as execuções de pipeline agrupadas pelo nome apresentadas como barras relativamente ao tempo que a execução demorou. Você também pode agrupar por anotações/tags que criou em seu pipeline. A vista Gantt também está disponível ao nível da execução da atividade.

Example of a Gantt chart

O comprimento da barra informa a duração da tubulação. Você também pode selecionar a barra para ver mais detalhes.

Gantt chart duration

Monitorar sessões de depuração de fluxo de dados

O mapeamento de fluxos de dados permite criar uma lógica de transformação de dados sem código que é executada em escala. Ao criar sua lógica, você pode ativar uma sessão de depuração para trabalhar interativamente com seus dados usando um cluster do Spark ao vivo.

Você pode monitorar sessões de depuração de fluxo de dados ativas em uma fábrica na experiência do Monitor .

View data flow debug sessions

Painéis de monitoramento

Para exibir uma exibição visual de alto nível de seu pipeline, atividade e execuções de gatilho, vá para o painel Painéis. Aqui você pode ver o número de sucessos e fracassos durante um período de tempo especificado.

reading the monitor dashboard

Monitorizar através do Azure Monitor

O Azure Monitor fornece métricas e logs de infraestrutura de nível básico para a maioria dos serviços do Azure. Os registos de diagnóstico do Azure são emitidos por um recurso e fornecem dados avançados e frequentes sobre o funcionamento desse recurso. O Azure Data Factory (ADF) pode escrever logs de diagnóstico no Azure Monitor.

O Data Factory armazena dados executados em pipeline por apenas 45 dias. Use o Azure Monitor se quiser manter esses dados por mais tempo. Com o Monitor, você pode rotear logs de diagnóstico para análise para vários destinos diferentes.

  • Conta de armazenamento: salve seus logs de diagnóstico em uma conta de armazenamento para auditoria ou inspeção manual. Você pode usar as configurações de diagnóstico para especificar o tempo de retenção em dias.
  • Hub de Eventos: transmita os logs para os Hubs de Eventos do Azure. Os logs se tornam entrada para um serviço de parceiro/solução de análise personalizada como o Power BI.
  • Log Analytics: Analise os logs com o Log Analytics. A integração do Data Factory com o Azure Monitor é útil nos seguintes cenários:
    • Você deseja escrever consultas complexas em um conjunto avançado de métricas publicadas pelo Data Factory para monitorar. Você pode criar alertas personalizados nessas consultas via Monitor.
    • Você deseja monitorar em todas as fábricas de dados. Você pode rotear dados de várias fábricas de dados para um único espaço de trabalho do Monitor.

Você também pode usar uma conta de armazenamento ou namespace de hub de eventos que não esteja na assinatura do recurso que emite logs. O usuário que define a configuração deve ter acesso apropriado ao controle de acesso baseado em função do Azure (Azure RBAC) para ambas as assinaturas.

Definir configurações de diagnóstico e espaço de trabalho

Crie ou adicione configurações de diagnóstico para seu data factory.

  1. No portal, vá para Monitor. Selecione Configurações Configurações>de diagnóstico.

  2. Selecione o data factory para o qual você deseja definir uma configuração de diagnóstico.

  3. Se não existirem configurações no data factory selecionado, você será solicitado a criar uma configuração. Selecione Ativar diagnóstico.

Create a diagnostic setting if no settings exist

Se houver configurações existentes no data factory, você verá uma lista de configurações já configuradas no data factory. Selecione Adicionar definição de diagnóstico.

Add a diagnostic setting if settings exist

  1. Dê um nome à sua configuração, selecione Enviar para o Log Analytics e, em seguida, selecione um espaço de trabalho no Espaço de trabalho do Log Analytics.

    • No modo Azure-Diagnostics, os logs de diagnóstico fluem para a tabela AzureDiagnostics .

    • No modo Específico do Recurso , os logs de diagnóstico do Azure Data Factory fluem para as seguintes tabelas:

      • ADFActivityRun
      • ADFPipelineRun
      • ADFTriggerRun
      • ADFSSISIntegrationRuntimeLogs
      • ADFSSISPackageEventMessageContext
      • ADFSSISPackageEventMessages
      • ADFSSISPackageExecutableStatistics
      • ADFSSISPackageExecutionComponentPhases
      • ADFSSISPackageExecutionDataStatistics

      Você pode selecionar vários logs relevantes para suas cargas de trabalho para enviar às tabelas do Log Analytics. Por exemplo, se você não usar o SQL Server Integration Services (SSIS), não precisará selecionar nenhum log do SSIS. Se quiser registrar as operações de início/parada/manutenção, do SSIS Integration Runtime (IR), selecione os logs de IR do SSIS. Se você invocar execuções de pacotes SSIS via T-SQL no SQL Server Management Studio (SSMS), SQL Server Agent ou outras ferramentas designadas, poderá selecionar logs de pacotes SSIS. Se você invocar execuções de pacotes SSIS por meio de atividades de Executar Pacote SSIS em pipelines do ADF, poderá selecionar todos os logs.

    • Se você selecionar AllMetrics, várias métricas do Azure Data Factory serão disponibilizadas para você monitorar ou gerar alertas, incluindo as métricas para atividades do Azure Data Factory, pipeline e execuções de gatilho, bem como para operações de IR SSIS e execuções de pacotes SSIS.

Name your settings and select a log-analytics workspace

> [!NOTE]
> Because an Azure log table can't have more than 500 columns, Select _Resource-Specific mode_.
  1. Selecione Guardar.

Após alguns momentos, a nova configuração aparece na sua lista de configurações para este data factory. Os logs de diagnóstico são transmitidos para esse espaço de trabalho assim que novos dados de evento são gerados. Pode decorrer até 15 minutos entre o momento em que um evento é emitido e quando aparece no Log Analytics.