使用 Dataflow Gen2 将 2 GB Parquet 数据加载到湖屋表的定价方案

此方案使用 Dataflow Gen2 将存储在 Azure Data Lake Storage (ADLS) Gen2 中的 2 GB Parquet 数据加载到 Microsoft Fabric 中的湖屋表。 我们使用纽约绿色出租车样本数据作为 Parquet 数据。

以下示例中使用的价格是假设的,并不意味确切的实际定价。 这些只是为了演示如何在 Microsoft Fabric 中估算、规划和管理数据工厂项目的成本。 此外,由于 Fabric 容量在各个区域之间定价不同,因此我们使用美国西部 2(典型的 Azure 区域)的 Fabric 容量即用即付定价,即每小时每 CU 0.18 美元。 请参阅此处的 Microsoft Fabric - 定价,以了解其他 Fabric 容量定价选项。

配置

要完成此方案,需要通过以下步骤创建数据流:

  1. 初始化数据流:从 ADLS Gen2 存储帐户获取 2 GB Parquet 文件数据。
  2. 配置 Power Query:
    1. 导航到 Power Query。
    2. 确保启用可用于暂存查询的选项。
    3. 继续操作以合并 Parquet 文件。
  3. 数据转换:
    1. 为了清楚起见,提升标头。
    2. 移除不需要的列。
    3. 根据需要调整列数据类型。
  4. 定义输出数据目标:
    1. 将湖屋配置为数据输出目标。
    2. 在此示例中,已在 Fabric 中创建并使用了湖屋。

使用 Fabric 指标应用估算成本

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

大规模数据流计算计量器记录的活动可以忽略不计。 Dataflow Gen2 刷新操作的标准计算计量器使用 112,098.540 个计算单元 (CU)。 必须考虑到其他操作(包括仓库查询、SQL 终结点查询和数据集按需刷新)构成了 Dataflow Gen2 实现的详细方面,这些信息目前是透明的,而且是其各自操作所必需的。 但这些操作将在将来的更新中隐藏,并且在估算 Dataflow Gen2 的成本时应将其忽略。

注意

尽管报告为指标,但在使用 Fabric 指标应用计算有效 CU 小时数时,运行的实际持续时间并不相关,因为它同时报告的 CU 秒指标已考虑到其持续时间。

指标 标准计算 大规模计算
CU 总秒数 112,098.54 CU 秒 0 CU 秒
计费的有效 CU 小时数 112,098.54/(60*60) = 31.14 CU 小时 0 / (60*60) = 0 CU 小时

按 0.18 美元/CU 小时计算的总运行成本 =(31.14 CU 小时)*(0.18 美元/CU 小时)~= 5.60 美元