Partager via


Exemple de tarification : Copier des données et les transformer avec Azure Databricks

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans ce scénario, vous souhaitez copier des données d’AWS S3 vers le Stockage Blob Azure et les transformer avec Azure Databricks selon une planification horaire de 8 heures par jour pendant 30 jours.

Les prix mentionnés dans l’exemple ci-dessous sont hypothétiques et ne sont pas destinés à indiquer la tarification réelle exacte. Les coûts de lecture/écriture et de supervision ne sont pas indiqués car ils sont généralement négligeables et n’ont pas d’impact significatif sur les coûts globaux. Les exécutions d’activité sont également arrondies au 1 000e le plus proche dans les estimations de la calculatrice de prix.

Remarque

Cette estimation concerne uniquement les coûts d’Azure Data Factory. Néanmoins, Azure Databricks entraîne également des coûts dans ce scénario, que vous pouvez estimer à l’aide de la calculatrice de prix Azure.

Reportez-vous à la Calculatrice de tarification Azure pour obtenir des scénarios plus spécifiques et estimer vos coûts futurs d’utilisation du service.

Configuration

Pour réaliser ce scénario, créez un pipeline avec les éléments suivants :

  • Une activité de copie avec un jeu de données d’entrée pour les données à copier à partir d’AWS S3 et un jeu de données de sortie pour les données sur le Stockage Azure.
  • Une activité Azure Databricks pour la transformation de données.
  • Un déclencheur de planification pour exécuter le pipeline toutes les heures. Lorsque vous souhaitez exécuter un pipeline, vous pouvez le déclencher immédiatement ou le planifier. En plus du pipeline lui-même, chaque instance de déclencheur compte comme une seule exécution d’activité.

Ce diagramme illustre un pipeline avec un déclencheur de planification. Dans le pipeline, l’activité de copie est acheminée vers un jeu de données d’entrée, un jeu de données de sortie et une activité DataBricks, qui s’exécute sur Azure Databricks. Le jeu de données d’entrée est acheminé vers un service lié AWS S3. Le jeu de données de sortie est acheminé vers un service lié Stockage Azure.

Estimation des coûts

Opérations Types et unités
Exécution d’un pipeline 3 exécutions d’activité par exécution (1 pour l’exécution du déclencheur, 2 pour les exécutions d’activités) = 720 exécutions d’activité, arrondies à une valeur supérieure puisque la calculatrice autorise uniquement les incréments de 1 000.
Copie de données - Hypothèse : heures d’unités d’intégration de données (DIU) par exécution = 10 minutes 10 minutes/60 minutes * 4 Azure Integration Runtime (paramètre DIU par défaut = 4) Pour plus d’informations sur les unités d’intégration de données et l’optimisation des performances de copie, consultez cet article
Exécuter l’activité Databricks - Hypothèse : heures d’exécution par exécution = 10 minutes 10 minutes\60 minutes d’exécution de l’activité du pipeline externe

Exemple de calculatrice de prix

Prix total du scénario pendant 30 jours : 41,01 $

Capture d’écran de la calculatrice de prix configurée pour une copie des données et la transformation avec le scénario Azure Databricks.