Folha de referências do agendamento de trabalhos de produção
Este artigo tem como objetivo fornecer diretrizes claras e opinativas para o agendamento de trabalhos de produção. O uso de melhores práticas pode ajudar a reduzir os custos, aprimorar o desempenho e reforçar a segurança.
Melhor Prática | Impacto | Docs |
---|---|---|
Usar clusters de trabalhos para fluxos de trabalho automatizados | Custo: os clusters de trabalhos são cobrados a taxas mais baixas do que os clusters interativos. | - Criar um cluster - Clusters de trabalho e para todas as finalidades. |
Reiniciar clusters de longa execução | Segurança: reinicie os clusters para aproveitar os patches e as correções de bugs no Databricks Runtime. | - Reiniciar um cluster para atualizá-lo com as imagens mais recentes |
Usar entidades de serviço em vez de contas de usuário para executar trabalhos de produção | Segurança: se os trabalhos forem de propriedade de usuários individuais, quando esses usuários saírem da organização, os trabalhos poderão ter a execução interrompida. | - Gerenciar entidades de serviço |
Usar Trabalhos do Databricks para orquestração sempre que possível | Custo: não será necessário usar ferramentas externas para orquestração se você estiver apenas orquestrando cargas de trabalho no Azure Databricks. | - Agendar e orquestrar fluxos de trabalho |
Usar a última versão LTS do Databricks Runtime | Desempenho e custo: o Azure Databricks está sempre aprimorando o Databricks Runtime quanto à usabilidade, ao desempenho e à segurança. | - Computação - Ciclos de vida de suporte do Databricks |
Não armazene dados de produção na raiz do DBFS | Segurança: quando os dados são armazenados na raiz do DBFS, todos os usuários podem acessá-los. | - O que é DBFS? - Recomendações para trabalhar com a raiz do DBFS |