Compartilhar via


Início rápido: transformar dados usando a definição de trabalho do Apache Spark

Neste início rápido, você usará o Azure Synapse Analytics para criar um pipeline usando a definição de trabalho do Apache Spark.

Pré-requisitos

Após criar o workspace do Azure Synapse, você tem duas maneiras de abrir o Synapse Studio:

Neste guia de início rápido, usamos o espaço de trabalho chamado "sampletest" como um exemplo.

Página inicial do Synapse Studio

Criar um pipeline com uma definição de trabalho do Apache Spark

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você criará um pipeline que contém uma atividade de definição de trabalho do Apache Spark.

  1. Vá até a guia Integrar. Selecione o ícone de adição ao lado do cabeçalho de pipelines e selecione Pipeline.

    Criar um novo pipeline

  2. Na página de configurações de Propriedades do pipeline, digite demo para Nome.

  3. Em Synapse no painel Atividades, arraste Definição de trabalho do Spark para a tela do pipeline.

    Arrastar a definição de trabalho do Spark

Tela de configuração da definição de trabalho do Apache Spark

Depois de criar sua definição de trabalho do Apache Spark, você será enviado automaticamente para a tela de definição de trabalho do Spark.

Configurações gerais

  1. Selecione o módulo de definição de trabalho do Spark na tela.

  2. Na guia Geral, insira exemplo para Nome.

  3. (Opção) Também é possível inserir uma descrição.

  4. Tempo limite: a quantidade máxima de tempo de execução de uma atividade. O padrão é sete dias, que também é a quantidade máxima de tempo permitido. O formato está em D.HH:MM:SS.

  5. Novas tentativas: o número máximo de novas tentativas.

  6. Intervalo de novas tentativas: o número de segundos entre cada nova tentativa.

  7. Saída segura: quando marcada, a saída da atividade não é capturada no log.

  8. Entrada segura: quando marcada, a entrada da atividade não é capturada no registro em log.

    Informações gerais sobre a definição de trabalho do Spark

Guia Configurações

Neste painel, você pode fazer referência à definição de trabalho do Spark que será executada.

  • Expanda a lista de definições de trabalho do Spark para escolher uma definição de trabalho existente do Apache Spark. Você também pode criar uma definição de trabalho do Apache Spark selecionando o botão Novo para fazer referência à definição de trabalho do Spark que será executada.

  • (Opcional) Você pode preencher informações para a definição de trabalho do Apache Spark. Se as configurações a seguir estiverem vazias, as configurações da própria definição de trabalho do Spark serão usadas para execução; se as configurações a seguir não estiverem vazias, essas configurações substituirão as configurações da própria definição de trabalho do Spark.

    Propriedade Descrição
    Arquivo de definição principal O arquivo principal usado para o trabalho. Selecione um arquivo ZIP/PY/JAR no armazenamento. Você pode selecionar Carregar arquivo para carregar o arquivo em uma conta de armazenamento.
    Exemplo: abfss://…/path/to/wordcount.jar
    Referências de subpastas Verificando subpastas da pasta raiz do arquivo de definição principal, esses arquivos são adicionados como arquivos de referência. As pastas chamadas "jars", "pyFiles", "files" ou "archives" são verificadas e o nome das pastas diferencia maiúsculas de minúsculas.
    Nome da classe principal O identificador totalmente qualificado ou a classe principal que está no arquivo de definição principal.
    Exemplo: WordCount
    Argumentos de linha de comando É possível adicionar argumentos de linha de comando clicando no botão Novo. Deve-se observar que a adição de argumentos de linha de comando substitui os argumentos de linha de comando definidos pela definição de trabalho do Spark.
    Exemplo: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Pool do Apache Spark Você pode selecionar o pool do Apache Spark na lista.
    Referência de código Python Outros arquivos de código Python usados ​​para referência no arquivo de definição principal.
    Ele dá suporte à transmissão de arquivos (.py, .py3, .zip) para a propriedade "pyFiles". Ele substitui a propriedade "pyFiles" definida na definição de trabalho do Spark.
    Arquivos de referência Outros arquivos usados para referência no arquivo de definição principal.
    Alocar executores dinamicamente Esta configuração é mapeada para a propriedade de alocação dinâmica na configuração do Spark para a alocação de executores do Aplicativo Spark.
    Mínimo de executores Número mínimo de executores a serem alocados no Pool do Spark especificado para o trabalho.
    Máximo de executores Número máximo de executores a serem alocados no Pool do Spark especificado para o trabalho.
    Tamanho do driver Número de núcleos e memória a serem usados para o driver fornecido no pool do Apache Spark especificado para o trabalho.
    Configuração do Apache Spark Especifique valores para propriedades de configuração do Spark listadas no artigo: Configuração do Spark – Propriedades de aplicativo. Os usuários podem usar a configuração padrão e a configuração personalizada.

    configurações do pipeline de definição de trabalho do Spark

  • Você pode adicionar conteúdo dinâmico clicando no botão Adicionar conteúdo dinâmico ou pressionando a tecla de atalho Alt+Shift+D. Na página Adicionar conteúdo dinâmico, você pode usar qualquer combinação de expressões, funções e variáveis de sistema para adicionar ao conteúdo dinâmico.

    Adicionar conteúdo dinâmico

Guia de propriedades do usuário

Você pode adicionar propriedades para a atividade de definição de trabalho do Apache Spark neste painel.

Propriedades do usuário

Vá para os seguintes artigos para saber mais sobre o suporte do Azure Synapse Analytics: