你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 数据工厂工作流编排管理器如何工作?

适用于:Azure 数据工厂 Azure Synapse Analytics

提示

试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用

注意

工作流编排管理器由 Apache Airflow 提供支持。

注意

Azure 数据工厂的工作流编排管理器依赖于开源 Apache Airflow 应用程序。 可以在 Apache Airflow 文档社区页上找到有关 Airflow 的文档和更多教程。

Azure 数据工厂中的工作流编排管理器使用基于 Python 的有向无环图 (DAG) 来运行业务流程工作流。 若要使用此功能,需要在 Azure Blob 存储中提供 DAG 和插件。 可以使用命令行界面 (CLI) 或软件开发工具包 (SDK) 从 ADF 启动 Airflow UI 以管理 DAG。

创建工作流编排管理器环境

以下步骤设置和配置工作流编排管理器环境。

先决条件

Azure 订阅:如果没有 Azure 订阅,请在开始之前创建一个免费帐户。 在支持工作流编排管理器预览版的区域中创建一个数据工厂或选择现有的数据工厂。

创建环境的步骤

  1. 创建新的工作流编排管理器环境。 转到“管理”中心 ->“Airflow (预览版)”->“+ 新建”,创建新的 Airflow 环境

    显示如何新建托管 Apache Airflow 环境的屏幕截图。

  2. 提供详细信息(Airflow 配置)

    显示一些工作流编排管理器环境详细信息的屏幕截图。

    重要

    使用基本身份验证时,请记住在此屏幕中指定的用户名和密码。 稍后需要它们以在工作流编排管理器 UI 中登录。 默认选项是“Microsoft Entra ID”,它不要求为 Airflow 环境创建用户名/密码,而是要求改用已登录到 Azure 数据工厂的用户的凭据来登录/监视 DAG

  3. 环境变量,Airflow 中的一个简单键值存储,用于存储和检索任意内容或设置。

  4. 要求,可用于预安装 Python 库。 也可稍后更新这些内容。

导入 DAG

以下步骤描述了如何将 DAG 导入工作流编排管理器。

先决条件

需要将示例 DAG 上传到可访问的存储帐户(应位于 dags 文件夹下)。

注意

预览期间不支持 VNet 后面的 Blob 存储。
storageLinkedServices 中的 KeyVault 配置不支持导入 dags。

示例 Apache Airflow v2.x DAG示例 Apache Airflow v1.10 DAG

导入步骤

  1. 将内容(v2.x 或 v1.10,具体取决于设置的 Airflow 环境)复制并粘贴到名为 tutorial.py 的新文件中。

    将 tutorial.py 上传到 blob 存储。 (如何将文件上传到 blob

    注意

    需要从包含名为 dags 和 plugins 的文件夹的 blob 存储帐户中选择一个目录路径,以将其导入 Airflow 环境。 插件不是必需的。 还可以有一个名为 dags 的容器,并上传其中的所有 Airflow 文件。

  2. 在“管理”中心下选择“Airflow (预览版)”。 然后,将鼠标悬停在先前创建的“Airflow”环境上并选择“导入文件”以将所有 DAG 和依赖项导入 Airflow 环境。

    显示“管理”中心中的“导入文件”的屏幕截图。

  3. 为先决条件中提到的可访问存储帐户新建一个链接服务(或者,如果已经拥有自己的 DAG,则使用现有帐户)。

    显示如何创建新链接服务的屏幕截图。

  4. 使用上传 DAG 的存储帐户(检查先决条件)。 测试连接,然后选择“创建”。

    显示一些链接服务详细信息的屏幕截图。

  5. 如果使用示例 SAS URL,请浏览并选择“airflow”,或者选择包含带有 DAG 文件的 dags 文件夹的文件夹。

    注意

    可以通过此接口导入 DAG 及其依赖项。 需要从包含名为 dags 和 plugins 的文件夹的 blob 存储帐户中选择一个目录路径,以将其导入 Airflow 环境。 插件不是必需的。

    显示“导入文件”中的“浏览存储”的屏幕截图。

    显示“在 airflow 中浏览”的屏幕截图。

    显示“导入文件”中的“导入”的屏幕截图。

    显示“导入 dag”的屏幕截图。

注意

在“预览”期间导入 DAG 可能需要几分钟时间。 通知中心(ADF UI 中的铃铛图标)可用于跟踪导入状态更新。

排查导入 DAG 问题

  • 问题:DAG 导入需要超过 5 分钟的时间 缓解措施:通过单次导入减小导入的 DAG 的大小。 实现此目的的一种方法是在多个容器中创建多个具有较少 DAG 的 DAG 文件夹。

  • 问题:登录 Airflow UI 时,导入的 DAG 不显示。 缓解措施:登录 Airflow UI 并查看是否存在任何 DAG 解析错误。 如果 DAG 文件包含任何不兼容的代码,就会发生这种情况。 通过 Airflow UI 找到存在问题的确切行号和文件。

    显示导入 dag 问题的屏幕截图。

监视 DAG 运行

要监视 Airflow DAG,请使用之前创建的用户名和密码登录 Airflow UI。

  1. 选择创建的 Airflow 环境。

    显示创建的 Airflow 环境的屏幕截图。

  2. 使用创建 Airflow Integration Runtime 期间提供的用户名-密码登录。 (如果需要,可以通过编辑 Airflow Integration Runtime 来重置用户名或密码

    显示使用创建 Airflow Integration Runtime 期间提供的用户名-密码登录的屏幕截图。

从 Airflow 环境中删除 DAG

如果使用的是 Airflow 版本 1.x,删除部署在任何 Airflow 环境 (IR) 上的 DAG,需要在两个不同位置删除 DAG。

  1. 从 Airflow UI 中删除 DAG
  2. 在 ADF UI 中删除 DAG

注意

这是公共预览版的当前体验,我们将对此体验进行改进。