Envio do Spark (herdado)
O tipo de tarefa Envio do Spark é um padrão herdado para configurar JARs como tarefas. O Databricks recomenda usar a tarefa JAR. Consulte Tarefa JAR para trabalhos.
Requisitos
- Você pode invocar tarefas de envio do Spark apenas em novos clusters.
- Você deve fazer upload do arquivo de JAR para um local ou repositório Maven compatível com sua configuração de computação. Confira Suporte à biblioteca Java e Scala.
- Não é possível acessar arquivos JAR armazenados em volumes.
- O spark-submit não dá suporte ao dimensionamento automático do cluster. Para saber mais sobre dimensionamento automático, confira Dimensionamento automático de cluster.
- O spark-submit não dá suporte aos Referência do Utilitários do Databricks (dbutils). Para usar os Utilitários do Databricks, use tarefas JAR.
- Se você usar um cluster habilitado para Catálogo do Unity, o spark-submit só terá suporte se o cluster usar o modo de acesso de usuário único. Não há suporte para o modo de acesso compartilhado. Consulte Modos de acesso.
- Os trabalhos de streaming estruturado nunca devem ter execuções simultâneas máximas definidas como maior que 1. Os trabalhos de streaming devem ser definidos para execução usando a expressão Cron
"* * * * * ?"
(a cada minuto). Já que uma tarefa de streaming é executada continuamente, ela sempre deve ser a tarefa final em um trabalho.
Configurar uma tarefa de Envio de Spark
Adicione uma tarefa Spark Submit
a partir da guia Tarefas na interface do usuário de trabalhos fazendo o seguinte:
- No menu suspenso Tipo, selecione
Spark Submit
. - Use Computação para configurar um cluster que dê suporte à lógica em sua tarefa.
- Use a caixa de texto Parâmetros para fornecer todos os argumentos e configurações necessários para executar sua tarefa como uma matriz JSON de cadeias de caracteres.
Os três primeiros argumentos são usados para identificar a classe principal a ser executada em um JAR em um caminho especificado, como no exemplo a seguir:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
Você não pode substituir as configurações
master
,deploy-mode
eexecutor-cores
definidas pelo Azure DatabricksUse
--jars
e--py-files
para adicionar bibliotecas Java, Scala e Python dependentes.Use
--conf
para definir as configurações do Spark.Os argumentos
--jars
,--py-files
e--files
dão suporte a caminhos DBFS.Por padrão, o trabalho de envio do Spark usa toda a memória disponível, excluindo a memória reservada para os serviços do Azure Databricks. Você pode definir
--driver-memory
e--executor-memory
como um valor menor a fim de deixar algum espaço para uso fora do heap.
- Clique em Salvar tarefa.