Aide-mémoire sur la planification de travaux de production
Cet article vise à fournir des conseils clairs et avisés pour la planification de travaux de production. Utiliser les meilleures pratiques peut réduire les coûts, améliorer le niveau de performance et renforcer la sécurité.
Conseil | Impact | Documents |
---|---|---|
Utiliser des clusters de travaux pour des workflows automatisés | Coût : les clusters de travaux sont facturés à des tarifs plus bas que les clusters interactifs. | - Créer un cluster - Clusters de travaux et à usage général. |
Redémarrer des clusters de longue durée | Sécurité : redémarrez des clusters pour tirer parti de patchs et de correctifs de bogues pour Databricks Runtime. | - Redémarrer un cluster pour le mettre à jour avec les dernières images |
Utiliser des principaux de service au lieu de comptes d’utilisateur pour exécuter des travaux de production | Sécurité : si des travaux sont détenus par des utilisateurs individuels qui quittent l’organisation, il est possible que ces travaux cessent de fonctionner. | - Gérer les principaux de service |
Pour l’orchestration, utilisez autant que possible les travaux Databricks | Coût : il n’est pas nécessaire d’utiliser des outils externes à orchestrer si vous orchestrez déjà des charges de travail sur Azure Databricks uniquement. | - Planifier et orchestrer des flux de travail |
Utiliser la dernière version LTS de Databricks Runtime | Performances et coût : Azure Databricks améliore constamment Databricks Runtime pour plus de facilité d’utilisation, de performances et de sécurité. | - Calcul - Databricks prend en charge les cycles de vie |
Ne pas stocker des données de production dans une racine DBFS | Sécurité : quand des données sont stockées dans la racine DBFS, tous les utilisateurs peut y accéder. | - Qu’est-ce que DBFS ? - Recommandations relatives à l’utilisation de la racine DBFS |