你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用动态参数按小时复制数据并进行转换

适用于:Azure 数据工厂 Azure Synapse Analytics

提示

试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用

在此方案中,需使用 Azure Databricks(使用脚本中的动态参数)按计划将数据每隔一小时从 AWS S3 复制到 Azure Blob 存储并进行转换(30 天每天 8 小时)。

此示例中使用的是假定价格,并不是指实际定价。 未显示读取/写入和监视成本,因为它们通常可以忽略不计,并且不会对总体成本产生显著影响。 在定价计算器估计中,活动运行也舍入到最接近的 1000。

请参阅 Azure 定价计算器了解更多特定场景,并估计将来使用该服务的成本。

配置

若要完成此方案,需使用以下项创建一个管道:

  • 一个使用输入数据集(适用于将要从 AWS S3 复制的数据)和输出数据集(适用于 Azure 存储上的数据)的复制活动。
  • 一个查找活动,用于将参数动态传递到转换脚本。
  • 一个用于数据转换的 Azure Databricks 活动。
  • 一个计划触发器,用于每隔一小时执行一次管道,每天 8 小时。 当你想要运行管道时,你可以立即触发管道或计划管道。 除了管道本身,每个触发器实例都算作单个活动运行。

关系图显示具有计划触发器的管道。在管道中,将活动流复制到输入数据集、输出数据集和流向 DataBricks 活动的查找活动,该活动在 Azure Databricks 上运行。输入数据集流向 AWS S3 链接服务。输出数据集流向 Azure 存储链接的服务。

成本估算

操作 类型和单元
运行管道 每次执行 4 次活动运行(1 次用于触发器运行,3 次用于活动运行)=960 次活动运行,由于计算器仅允许 1000 的增量,因此向上取整。
复制数据假设:每次执行的 DIU 小时数 =10 分钟 10 分钟\60 分钟 * 4 Azure Integration Runtime(默认 DIU 设置 = 4)有关数据集成单元和副本性能优化的详细信息,请参阅此文
执行查找活动假设:每次执行的管道活动小时数 = 1 分钟 1 分钟 / 60 分钟管道活动执行
执行 Databricks 活动假设:每次执行的外部执行小时数 =10 分钟 10 分钟 / 60 分钟外部管道活动执行

定价示例:定价计算器示例

30 天的总方案定价:41.03 美元

为复制数据和使用动态参数方案转换配置的定价计算器的屏幕截图。