你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是工作流编排管理器?

适用于:Azure 数据工厂 Azure Synapse Analytics

提示

试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用

注意

Apache Airflow 现在可以通过 Microsoft Fabric 访问。 Microsoft Fabric 通过数据工作流提供广泛的 Apache Airflow 功能。 我们建议将现有的基于工作流编排管理器(ADF 中的 Apache Airflow)的工作流迁移到数据工作流(Microsoft Fabric 中的 Apache Airflow),以获得更广泛的功能。 Apache Airflow 功能将于 2025 年第一季度在 Microsoft Fabric 中正式发布。 对于新的 Apache Airflow 项目,我们强烈建议使用 Microsoft Fabric 中的 Apache Airflow。 此处提供了更多详细信息。 新用户无法在 ADF 中创建新的工作流编排管理器,但拥有工作流编排管理器的现有用户可以继续使用它,但应计划尽快迁移。

注意

Azure 数据工厂的工作流编排管理器依赖于开源 Apache Airflow 应用程序。 可以在 Apache Airflow 文档社区页上找到有关 Airflow 的文档和更多教程。

Azure 数据工厂提供用于实现数据处理业务流程的无服务器管道,使用 100 多个托管连接器进行数据移动,并使用映射数据流进行视觉对象转换。

Azure 数据工厂的工作流编排管理器服务是创建和管理 Apache Airflow 环境的简单高效方法,可支持你轻松且大规模运行数据管道。 Apache Airflow 是一个开源平台,用于以编程方式创建、计划和监视复杂的数据工作流。 它允许定义一组称为运算器的任务,这些任务可以组合成有向无环图 (DAG) 以表示数据管道。 通过 Airflow,可以按计划或响应事件执行这些 DAG,监视工作流的进度,并提供每个任务状态的可见性。 它广泛用于数据工程和数据科学来协调数据管道,以其灵活性、可扩展性和易用性而闻名。

屏幕截图显示了数据集成。

何时使用工作流编排管理器?

Azure 数据工厂提供了管道,以直观地协调数据进程(基于 UI 的创作)。 当工作流编排管理器提供基于 Airflow 的 Python DAG(以 Python 代码为中心的创作),以定义数据编排过程时。 如果对 Airflow 有一定的了解,或当前正在使用 Apace Airflow,你可能更乐于使用工作流编排管理器而不是管道。 相反,如果你不希望编写/管理基于 Python 的 DAG 来实现数据进程业务流程,则可能更倾向于使用管道。

借助工作流编排管理器,Azure 数据工厂现在提供跨可视化、以代码为中心的 OSS 业务流程要求的多业务流程功能。

功能

Azure 数据工厂中的工作流编排管理器提供了一系列强大的功能,包括:

  • 快速简单的部署 - 创建工作流编排管理器时,可以通过选择 Apache Airflow 版本来快速轻松地设置 Apache Airflow。
  • 云缩放 - 工作流编排管理器可在需要时根据范围规范(最小值、最大值)自动缩放 Apache Airflow 节点。
  • Microsoft Entra 集成 - 可以针对 Airflow 环境启用 Microsoft Entra RBAC,以实现受 Microsoft Entra ID 保护的单一登录体验。
  • 元数据加密 - 工作流编排管理器使用 Azure 托管密钥自动加密元数据,以确保环境在默认情况下处于安全状态。 它还支持使用客户管理的密钥 (CMK) 进行双重加密。
  • Azure 监视和警报 - 工作流编排管理器生成的所有日志会导出到 Azure Monitor。 它还提供指标来跟踪关键条件,并帮助你在需要时发出通知。

体系结构

屏幕截图显示了工作流编排管理器中的体系结构。

区域可用性(公共预览版)

  • 美国东部
  • 美国中南部
  • 美国西部
  • Brazil South
  • 英国南部
  • 北欧
  • 西欧
  • 东南亚

注意

Airflow 环境区域默认为数据工厂区域且不可配置,因此请确保在上述支持区域中使用数据工厂,以便能够访问工作流编排管理器预览版。

支持的 Apache Airflow 版本

  • 2.6.3

注意

不支持在现有 IR 中更改 Airflow 版本。 相反,建议的解决方案是使用所需版本创建新的 Airflow IR

集成

Apache Airflow 通过 microsoft.azure 提供程序与 Microsoft Azure 服务集成。

可以通过从 Azure 数据工厂 UI 编辑 Airflow 环境来安装任何提供程序包。 安装包大约需要几分钟时间。

屏幕截图显示了 Airflow 集成。

限制

  • 工作流编排管理器在其他区域中提供正式版。
  • 可以通过公共终结点(网络)访问通过 airflow 连接的数据源。
  • 目前不支持位于 VNet 中/防火墙后面的 Blob 存储内的 DAG。 我们建议改用工作流编排管理器的 Git 同步功能。 请参阅在工作流编排管理器中同步 GitHub 存储库
  • LinkedServices 不支持从 Azure 密钥保管库导入 Dag。