使用数据工厂管道
为了使用数据工厂管道,必须了解 Azure 数据工厂中的管道是什么。
Azure 数据工厂中的管道表示活动的逻辑分组,其中的活动一起执行特定任务。
在一个管道中组合活动的示例可以是,引入和清理日志数据与分析已清理日志数据的映射数据流结合。
通过管道,可以将单独的活动作为一个集合进行管理,否则需要分别管理它们。 它使你能够通过使用单个管道来有效地部署和计划活动,而不是独立管理每个活动。
管道中的活动称为你对数据执行的操作。 每个活动可获取零个或多个输入数据集,并生成一个或多个输出数据集。
操作示例可以是使用复制活动,将数据从 Azure SQL 数据库复制到 Azure Data Lake Storage Gen2。 若要在此示例的基础上生成,可以使用数据流活动或 Azure Databricks 笔记本活动来处理和转换已复制到 Azure Data Lake Storage Gen2 帐户的数据,以便将数据准备好用于商业智能报告解决方案,如 Azure Synapse Analytics。
由于 Azure 数据工厂中的管道可能包含许多活动,因此我们已将活动分为三个类别:
- 数据移动活动:数据工厂中的复制活动可以将数据从源数据存储复制到接收器数据存储。
- 数据转换活动:Azure 数据工厂支持转换数据流、Azure Function、Spark 等活动;可以将这些活动单独添加到管道,也可以与其他活动链接在一起再添加到管道。
- 控制活动:控制流活动的示例包括“获取元数据”、“For Each”和“执行管道”。
活动可以相互依赖。 我们的意思是,活动依赖项定义后续活动如何依赖于前面的活动。 依赖项本身可以基于是否继续执行以前定义的活动以完成任务的条件。 依赖于一个或多个以前的活动的活动可以具有不同的依赖条件。
这四个依赖条件为:
- 已成功
- 失败
- 已跳过
- 已完成
例如,如果管道包含活动 A,后跟活动 B,活动 B 有活动 A“成功”的依赖条件,则仅当活动 A 的状态为“成功”时,活动 B 才会运行。
如果在管道中具有多个活动且后续活动不依赖于以前的活动,则活动可能并行运行。