Compartilhar via


Transformar dados executando uma atividade de definição de trabalho do Spark

A atividade de definição de trabalho do Spark no Data Factory para Microsoft Fabric permite criar conexões com suas definições de trabalho do Spark e executá-las a partir de um pipeline de dados.

Pré-requisitos

Para começar, você deve concluir os seguintes pré-requisitos:

Adicionar uma atividade de definição de trabalho do Spark a um pipeline com a interface do usuário

  1. Crie um novo pipeline de dados no seu espaço de trabalho.

  2. Pesquise uma definição de trabalho do Spark no cartão da tela de início e selecione essa opção ou escolha a atividade na barra Atividades para adicioná-la à tela do pipeline.

    • Como criar a atividade no cartão da tela de início:

      Captura de tela mostrando onde criar uma nova atividade de definição de trabalho do Spark.

    • Como criar a atividade na barra Atividades:

      Captura de tela mostrando onde criar uma nova atividade de definição de trabalho do Spark na barra Atividades na janela do editor de pipeline.

  3. Selecione a nova atividade de definição de trabalho do Spark na tela do editor de pipeline se ela ainda não estiver selecionada.

    Captura de tela mostrando a atividade de definição de trabalho do Spark na tela do editor de pipeline.

    Consulte as diretrizes de Configurações gerais para definir as opções encontradas na guia Configurações gerais.

Configurações da atividade de definição de trabalho do Spark

Selecione a guia Configurações no painel de propriedades da atividade e, em seguida, selecione o espaço de trabalho do Fabric que contém a definição de trabalho do Spark que você deseja executar.

Captura de tela mostrando a guia Configurações das páginas de propriedades de definição de trabalho do Spark na janela do editor de pipeline.

Limitações conhecidas

As limitações atuais na atividade de definição de trabalho do Spark para o Data Factory no Fabric estão listadas aqui. A seção está sujeita a alterações.

  • No momento, não oferecemos suporte à criação de uma nova atividade de definição de trabalho do Spark dentro da atividade (em Configurações)
  • O suporte à parametrização não está disponível.
  • Apesar de oferecermos suporte ao monitoramento da atividade por meio da guia de saída, você ainda não pode monitorar a definição de trabalho do Spark em um nível mais granular. Por exemplo, os links para a página de monitoramento, o status, a duração e as execuções anteriores da definição de trabalho do Spark não estão disponíveis diretamente no Data Factory. No entanto, você pode conferir mais detalhes granulares na página de monitoramento de definição de trabalho do Spark.

Salvar e executar ou agendar o pipeline

Após configurar quaisquer outras atividades exigidas pelo pipeline, alterne para a guia Página Inicial na parte superior do editor do pipeline e selecione o botão Salvar para salvar o pipeline. Selecione Executar para executá-lo diretamente ou Agendar para agendá-lo. Você também pode exibir o histórico de execuções aqui ou definir outras configurações.

Captura de tela mostrando a guia Início do editor de pipeline, destacando os botões Salvar, Executar e Agendar.

Como monitorar execuções de pipeline