了解 Azure 数据工厂

已完成

大多数分析解决方案都需要触发数据的批处理移动或设置定期计划。 Azure 数据工厂 (ADF) 是可用于满足此类要求的服务。 ADF 提供基于云的数据集成服务,该服务可编排各种数据存储和计算资源之间的数据移动和转换。

Azure 数据工厂是基于云的 ETL 和数据集成服务,便于你创建数据驱动工作流来编排数据移动和大规模地转换数据。 可以使用 Azure 数据工厂创建和计划数据驱动型工作流(称为管道),以便从不同的数据存储引入数据。 可以构建复杂的 ETL 过程,以通过数据流或使用计算服务(例如 Azure HDInsight Hadoop、Azure Databricks 和 Azure Synapse Analytics)直观地转换数据。

Azure Synapse Analytics 中将 Azure 数据工厂的许多功能显示为称为管道的功能,这使你能够在 SQL 池、Spark 池和 SQL 无服务器之间集成数据管道,从而为所有分析需求提供一站式服务。

编排的含义

要进行类比,假设有一个交响乐团。 乐团的中心成员是指挥。 指挥不演奏乐器,他们只是带领交响乐团成员演奏他们演奏的整首音乐。 音乐家使用自己的技能在交响乐的各个阶段产生特定的声音,因此他们可能只了解音乐的某些部分。 指挥编排了整首音乐,因此知道正在演奏的整个乐谱。 他们还将使用特定的手臂动作,向音乐家指示如何演奏音乐。

ADF 可以使用类似的方法,尽管它具有引入和转换数据的本机功能,但有时它会指示另一项服务(例如执行转换查询的 Databricks)代表其执行所需的实际工作。 因此,在本例中,执行工作的将是 Databricks,而不是 ADF。 ADF 仅编排查询的执行,然后提供将数据移至下一步或目标的管道。

该服务还提供丰富的可视化效果来显示数据管道之间的历史记录和依赖项,用户可以通过单个统一视图监视所有数据管道,轻松查明问题和设置监视警报。

数据工厂平台