Cheat sheet de agendamento de trabalhos de produção
Este artigo tem como objetivo fornecer orientações claras e opinativas para o agendamento de trabalhos de produção. O uso de práticas recomendadas pode ajudar a reduzir custos, melhorar o desempenho e reforçar a segurança.
Best Practice (Melhores Práticas) | Impacto | Documentos |
---|---|---|
Usar clusters de tarefas para fluxos de trabalho automatizados | Custo: os clusters de trabalhos são cobrados a taxas mais baixas do que os clusters interativos. | - Criar um cluster - Grupos polivalentes e de postos de trabalho. |
Reiniciar clusters de longa execução | Segurança: reinicie clusters para aproveitar patches e correções de bugs no Databricks Runtime. | - Reinicie um cluster para atualizá-lo com as imagens mais recentes |
Usar entidades de serviço em vez de contas de usuário para executar trabalhos de produção | Segurança: Se os trabalhos forem de propriedade de usuários individuais, quando esses usuários deixarem a organização, esses trabalhos poderão parar de ser executados. | - Gerir principais de serviço |
Use Databricks Jobs para orquestração sempre que possível | Custo: não há necessidade de usar ferramentas externas para orquestrar se você estiver apenas orquestrando cargas de trabalho no Azure Databricks. | - Programar e orquestrar fluxos de trabalho |
Use a versão LTS mais recente do Databricks Runtime | Desempenho e custo: o Azure Databricks está sempre melhorando o Databricks Runtime para usabilidade, desempenho e segurança. | - Computação - Os Databricks suportam ciclos de vida |
Não armazene dados de produção na raiz DBFS | Segurança: Quando os dados são armazenados na raiz DBFS, todos os usuários podem acessá-los. | - O que é DBFS? - Recomendações para trabalhar com a raiz DBFS |