Aide-mémoire sur la création de calcul
Cet article vise à fournir des instructions claires et avisées pour la création de calcul. En utilisant des types de calcul appropriés pour votre workflow, vous pouvez améliorer les performances et réduire les coûts.
Conseil | Impact | Documents |
---|---|---|
Si vous débutez dans Azure Databricks, utiliser des types d’instances universels pour commencer | La sélection du type d’instance approprié pour la charge de travail améliore l’efficacité. | - Créer un cluster |
Utiliser le mode d’accès partagé, sauf si une fonctionnalité requise n’est pas prise en charge | Un calcul avec le mode d’accès partagé peut être utilisé par plusieurs utilisateurs avec isolation des données entre les utilisateurs. | - Modes d’accès |
Utiliser les types d’instances de dernière génération si la disponibilité est suffisante | La dernière génération de types d’instances offre les meilleures performances et les dernières fonctionnalités. | - Types d’instances Azure |
Équilibrer vos instances à la demande et vos instances spot en fonction de la rapidité avec laquelle vous avez besoin d’exécuter votre charge de travail | Les instances spot réduisent les coûts, mais peuvent affecter le temps d’exécution global d’une opération si les instances spot sont récupérées. | - Recommandations de configuration de calcul |
Choisir la taille de vos nœuds et le nombre de workers en fonction des types d’opérations que votre charge de travail effectue | Par exemple, si vous prévoyez de nombreux mélanges, il peut être plus efficace d’utiliser un grand nœud unique plutôt que plusieurs nœuds plus petits. | - Considérations relatives au dimensionnement du calcul |
Exécutez le nettoyage sur un cluster avec mise à l’échelle automatique définie pour 1 à 4 Workers, où chacun a 8 cœurs. Sélectionnez un pilote avec entre 8 et 32 cœurs. Augmentez la taille du pilote si vous obtenez des erreurs de mémoire insuffisante (OOM). |
Les instructions Vacuum se produisent en deux phases, la seconde étant lourde au niveau du pilote. Si vous n’utilisez pas une taille de cluster appropriée, l’opération peut entraîner un ralentissement et échouer. | - De quelle taille de cluster Vacuum a-t-il besoin ? - Bonnes pratiques relatives à Vacuum |
Déterminer si votre workflow de traitement par lots tirerait parti de Photon | Photon fournit des requêtes plus rapides et réduit le coût total par charge de travail. | - Avantages de Photon |