Compartilhar via


Envio do Spark (herdado)

O tipo de tarefa Envio do Spark é um padrão herdado para configurar JARs como tarefas. O Databricks recomenda usar a tarefa JAR. Consulte Tarefa JAR para trabalhos.

Requisitos

  • Você pode invocar tarefas de envio do Spark apenas em novos clusters.
  • Você deve fazer upload do arquivo de JAR para um local ou repositório Maven compatível com sua configuração de computação. Confira Suporte à biblioteca Java e Scala.
  • Não é possível acessar arquivos JAR armazenados em volumes.
  • O spark-submit não dá suporte ao dimensionamento automático do cluster. Para saber mais sobre dimensionamento automático, confira Dimensionamento automático de cluster.
  • O spark-submit não dá suporte aos Referência do Utilitários do Databricks (dbutils). Para usar os Utilitários do Databricks, use tarefas JAR.
  • Se você usar um cluster habilitado para Catálogo do Unity, o spark-submit só terá suporte se o cluster usar o modo de acesso de usuário único. Não há suporte para o modo de acesso compartilhado. Consulte Modos de acesso.
  • Os trabalhos de streaming estruturado nunca devem ter execuções simultâneas máximas definidas como maior que 1. Os trabalhos de streaming devem ser definidos para execução usando a expressão Cron "* * * * * ?" (a cada minuto). Já que uma tarefa de streaming é executada continuamente, ela sempre deve ser a tarefa final em um trabalho.

Configurar uma tarefa de Envio de Spark

Adicione uma tarefa Spark Submit a partir da guia Tarefas na interface do usuário de trabalhos fazendo o seguinte:

  1. No menu suspenso Tipo, selecione Spark Submit.
  2. Use Computação para configurar um cluster que dê suporte à lógica em sua tarefa.
  3. Use a caixa de texto Parâmetros para fornecer todos os argumentos e configurações necessários para executar sua tarefa como uma matriz JSON de cadeias de caracteres.
    • Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:

      ["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
      
    • Você não pode substituir as configurações master, deploy-mode e executor-cores definidas pelo Azure Databricks

    • Use --jars e --py-files para adicionar bibliotecas Java, Scala e Python dependentes.

    • Use --conf para definir as configurações do Spark.

    • Os argumentos --jars, --py-files e --files dão suporte a caminhos DBFS.

    • Por padrão, o trabalho de envio do Spark usa toda a memória disponível, excluindo a memória reservada para os serviços do Azure Databricks. Você pode definir --driver-memorye --executor-memory como um valor menor a fim de deixar algum espaço para uso fora do heap.

  4. Clique em Salvar tarefa.