Meilleures pratiques pour le calcul serverless
Cet article vous présente des recommandations sur les meilleures pratiques pour utiliser le calcul serverless dans vos notebooks et vos travaux.
En suivant ces recommandations, vous allez améliorer la productivité, l’efficacité des coûts et la fiabilité de vos charges de travail sur Azure Databricks.
Migration de charges de travail vers le calcul serverless
Pour protéger l’isolation du code utilisateur, le calcul serverless utilise le mode d’accès partagé sécurisé Azure Databricks. En raison de cela, certaines charges de travail nécessitent des modifications de code pour continuer à travailler sur le calcul serverless. Pour obtenir la liste des fonctionnalités non prises en charge, consultez Limitations de calcul serverless.
Certaines charges de travail sont plus faciles à migrer que d’autres. Les charges de travail qui répondent aux exigences suivantes seront les plus faciles à migrer :
- Les données accessibles doivent être stockées dans Unity Catalog.
- La charge de travail doit être compatible avec le calcul du mode d’accès partagé.
- La charge de travail doit être compatible avec Databricks Runtime 14.3 ou version ultérieure.
Pour tester si une charge de travail fonctionne sur un calcul serverless, exécutez-la sur une ressource de calcul non serverless avec le mode d’accès Partagé et un Runtime Databricks version 14.3 ou ultérieure. Si l’exécution réussit, la charge de travail est prête pour la migration.
En raison de l’importance de cette modification et de la liste actuelle des limitations, de nombreuses charges de travail ne migreront pas en toute transparence. Au lieu de tout enregistrer, Azure Databricks recommande de hiérarchiser la compatibilité du calcul serverless lorsque vous créez des charges de travail.
Ingestion de données à partir de systèmes externes
Étant donné que le calcul serverless ne prend pas en charge l’installation de fichiers JAR, vous ne pouvez pas utiliser un pilote JDBC ou ODBC pour ingérer des données à partir d’une source de données externe.
Les autres stratégies que vous pouvez utiliser pour l’ingestion sont les suivantes :
Blocs de construction SQL tels que COPY INTO et les tables de diffusion en continu.
Auto Loader pour traiter de façon incrémentielle et efficace les nouveaux fichiers de données à mesure qu’ils arrivent dans le stockage cloud. Consultez Qu’est-ce que Auto Loader ?.
Solutions partenaires d’ingestion de données. Consultez Se connecter à des partenaires d’ingestion en tirant parti de Partner Connect.
Ajout de l’interface utilisateur de données pour charger directement des fichiers. Consultez Charger des fichiers dans Azure Databricks.
Alternatives d’ingestion
Lorsque vous utilisez le calcul serverless, vous pouvez également utiliser les fonctionnalités suivantes pour interroger vos données sans les déplacer.
- Si vous souhaitez limiter la duplication des données ou garantir que vous interrogez les données les plus récentes, Databricks recommande d’utiliser le partage Delta. Consultez Qu’est-ce que le Delta Sharing ?.
- Si vous souhaitez générer des états ad hoc et effectuer un travail de preuve de concept, Databricks recommande d’essayer le bon choix, qui peut être Lakehouse Federation. Lakehouse Federation permet de synchroniser des bases de données entières avec Azure Databricks à partir de systèmes externes et est régi par Unity Catalog. Consultez Qu’est-ce que Lakehouse Federation ?.
Essayez une ou les deux de ces fonctionnalités et vérifiez si elles répondent à vos besoins en matière de performances de requête.
Surveiller le coût du calcul serverless
Vous pouvez utiliser plusieurs fonctionnalités pour surveiller le coût du calcul serverless:
Utilisez des tables système pour créer des tableaux de bord, configurer des alertes et effectuer des requêtes ad hoc. Consultez la section Surveiller le coût du calcul serverless.
Configurez des alertes de budget dans votre compte. Consultez la section Utiliser des budgets pour surveiller les dépenses des compte.
Importez un tableau de bord d'utilisation préconfiguré. Consultez la section Importer un tableau de bord de l’utilisation.