Guia de início rápido: transformar dados usando a definição de tarefa do Apache Spark

Artigo
12/11/2024

Neste início rápido, você usa o Azure Synapse Analytics para criar um pipeline usando a definição de trabalho do Apache Spark.

Pré-requisitos

Assinatura do Azure: se você não tiver uma assinatura do Azure, crie uma conta gratuita do Azure antes de começar.
Espaço de trabalho do Azure Synapse: crie um espaço de trabalho Synapse usando o portal do Azure seguindo as instruções em Guia de início rápido : criar um espaço de trabalho Synapse.
Definição de trabalho do Apache Spark: Crie uma definição de trabalho do Apache Spark no espaço de trabalho Synapse seguindo as instruções em Tutorial: Criar definição de trabalho do Apache Spark no Synapse Studio.

Navegue até o Synapse Studio

Depois que seu espaço de trabalho do Azure Synapse for criado, você terá duas maneiras de abrir o Synapse Studio:

Abra seu espaço de trabalho Synapse no portal do Azure. Selecione Abrir no cartão Open Synapse Studio em Introdução.
Abra o Azure Synapse Analytics e inicie sessão na sua área de trabalho.

Neste início rápido, usamos o espaço de trabalho chamado "sampletest" como exemplo.

Página inicial do Synapse Studio

Criar um pipeline com uma definição de trabalho do Apache Spark

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você cria um pipeline que contém uma atividade de definição de trabalho do Apache Spark.

Selecione o ícone de adição ao lado do cabeçalho dos pipelines e selecione Pipeline.
Na página Configurações de propriedades do pipeline, insira demo para Name.
Em Sinapse , no painel Atividades , arraste a definição de trabalho do Spark para a tela do pipeline.

Definir tela de definição de trabalho do Apache Spark

Depois de criar sua definição de trabalho do Apache Spark, você será enviado automaticamente para a tela de definição de trabalho do Spark.

Definições gerais

Selecione o módulo de definição de tarefa de faísca na tela.
Na guia Geral, insira o exemplo para Nome.
(Opção) Você também pode inserir uma descrição.
Tempo limite: quantidade máxima de tempo que uma atividade pode ser executada. O padrão é de sete dias, que também é a quantidade máxima de tempo permitida. O formato está em D.HH:MM:SS.
Repetir: número máximo de tentativas de repetição.
Intervalo de novas tentativas: o número de segundos entre cada tentativa de repetição.
Saída segura: quando marcada, a saída da atividade não é capturada no registro.
Entrada segura: quando marcada, a entrada da atividade não é capturada no registro.

Separador Definições

Neste painel, você pode fazer referência à definição de trabalho do Spark a ser executada.

Expanda a lista de definições de trabalho do Spark, você pode escolher uma definição de trabalho existente do Apache Spark. Você também pode criar uma nova definição de trabalho do Apache Spark selecionando o botão Novo para fazer referência à definição de trabalho do Spark a ser executada.

(Opcional) Você pode preencher as informações para a definição de trabalho do Apache Spark. Se as configurações a seguir estiverem vazias, as configurações da própria definição de trabalho de faísca serão usadas para executar; Se as configurações a seguir não estiverem vazias, elas substituem as configurações da própria definição de trabalho do Spark.

Property	Description
Ficheiro de definição principal	O arquivo principal usado para o trabalho. Selecione um arquivo PY/JAR/ZIP do seu armazenamento. Você pode selecionar Carregar arquivo para carregar o arquivo em uma conta de armazenamento. Exemplo: `abfss://…/path/to/wordcount.jar`
Referências de subpastas	Verificando subpastas da pasta raiz do arquivo de definição principal, esses arquivos são adicionados como arquivos de referência. As pastas denominadas "jars", "pyFiles", "files" ou "archives" são verificadas, e o nome das pastas diferencia maiúsculas de minúsculas.
Nome da classe principal	O identificador totalmente qualificado ou a classe principal que está no arquivo de definição principal. Exemplo: `WordCount`
Argumentos de linha de comando	Você pode adicionar argumentos de linha de comando clicando no botão Novo . Deve-se observar que a adição de argumentos de linha de comando substitui os argumentos de linha de comando definidos pela definição de trabalho do Spark. Amostra: `abfss://…/path/to/shakespeare.txtabfss://…/path/to/result`
Piscina Apache Spark	Você pode selecionar Apache Spark pool na lista.
Referência de código Python	Outros arquivos de código Python usados para referência no arquivo de definição principal. Ele suporta a passagem de arquivos (.py, .py3, .zip) para a propriedade "pyFiles". Ele substitui a propriedade "pyFiles" definida na definição de trabalho do Spark.
Ficheiros de referência	Outros arquivos usados para referência no arquivo de definição principal.
Alocar executores dinamicamente	Essa configuração é mapeada para a propriedade de alocação dinâmica na configuração do Spark para alocação de executores do Spark Application.
Executores Min	Número mínimo de executores a serem alocados no pool Spark especificado para o trabalho.
Max executores	Número máximo de executores a serem alocados no pool de faíscas especificado para o trabalho.
Tamanho do driver	Número de núcleos e memória a serem usados para o driver fornecido no pool Apache Spark especificado para o trabalho.
Configuração do Spark	Especifique valores para as propriedades de configuração do Spark listadas no artigo: Configuração do Spark - Propriedades do aplicativo. Os usuários podem usar a configuração padrão e a configuração personalizada.

Configurações do pipeline de definição de trabalho do Spark

Você pode adicionar conteúdo dinâmico clicando no botão Adicionar conteúdo dinâmico ou pressionando a tecla de atalho Alt+Shift+D. Na página Adicionar Conteúdo Dinâmico, você pode usar qualquer combinação de expressões, funções e variáveis do sistema para adicionar ao conteúdo dinâmico.

Guia Propriedades do usuário

Você pode adicionar propriedades para a atividade de definição de trabalho do Apache Spark neste painel.

Propriedades do usuário

Avance para os seguintes artigos para saber mais sobre o suporte do Azure Synapse Analytics:

Pipeline e atividades Visão geral do fluxo de dados de mapeamento Linguagem de expressão de fluxo de dados

Partilhar via

Guia de início rápido: transformar dados usando a definição de tarefa do Apache Spark

Pré-requisitos

Navegue até o Synapse Studio

Criar um pipeline com uma definição de trabalho do Apache Spark

Definir tela de definição de trabalho do Apache Spark

Definições gerais

Separador Definições

Guia Propriedades do usuário

Comentários

Recursos adicionais

Partilhar via

Guia de início rápido: transformar dados usando a definição de tarefa do Apache Spark

Pré-requisitos

Navegue até o Synapse Studio

Criar um pipeline com uma definição de trabalho do Apache Spark

Definir tela de definição de trabalho do Apache Spark

Definições gerais

Separador Definições

Guia Propriedades do usuário

Conteúdos relacionados

Comentários

Recursos adicionais