使用 Dataflow Gen2 将 2 GB Parquet 数据加载到湖屋表的定价方案
此方案使用 Dataflow Gen2 将存储在 Azure Data Lake Storage (ADLS) Gen2 中的 2 GB Parquet 数据加载到 Microsoft Fabric 中的湖屋表。 我们使用纽约绿色出租车样本数据作为 Parquet 数据。
以下示例中使用的价格是假设的,并不意味确切的实际定价。 这些只是为了演示如何在 Microsoft Fabric 中估算、规划和管理数据工厂项目的成本。 此外,由于 Fabric 容量在各个区域之间定价不同,因此我们使用美国西部 2(典型的 Azure 区域)的 Fabric 容量即用即付定价,即每小时每 CU 0.18 美元。 请参阅此处的 Microsoft Fabric - 定价,以了解其他 Fabric 容量定价选项。
配置
要完成此方案,需要通过以下步骤创建数据流:
- 初始化数据流:从 ADLS Gen2 存储帐户获取 2 GB Parquet 文件数据。
- 配置 Power Query:
- 导航到 Power Query。
- 确保启用可用于暂存查询的选项。
- 继续操作以合并 Parquet 文件。
- 数据转换:
- 为了清楚起见,提升标头。
- 移除不需要的列。
- 根据需要调整列数据类型。
- 定义输出数据目标:
- 将湖屋配置为数据输出目标。
- 在此示例中,已在 Fabric 中创建并使用了湖屋。
使用 Fabric 指标应用估算成本
大规模数据流计算计量器记录的活动可以忽略不计。 Dataflow Gen2 刷新操作的标准计算计量器使用 112,098.540 个计算单元 (CU)。 必须考虑到其他操作(包括仓库查询、SQL 终结点查询和数据集按需刷新)构成了 Dataflow Gen2 实现的详细方面,这些信息目前是透明的,而且是其各自操作所必需的。 但这些操作将在将来的更新中隐藏,并且在估算 Dataflow Gen2 的成本时应将其忽略。
注意
尽管报告为指标,但在使用 Fabric 指标应用计算有效 CU 小时数时,运行的实际持续时间并不相关,因为它同时报告的 CU 秒指标已考虑到其持续时间。
指标 | 标准计算 | 大规模计算 |
---|---|---|
CU 总秒数 | 112,098.54 CU 秒 | 0 CU 秒 |
计费的有效 CU 小时数 | 112,098.54/(60*60) = 31.14 CU 小时 | 0 / (60*60) = 0 CU 小时 |
按 0.18 美元/CU 小时计算的总运行成本 =(31.14 CU 小时)*(0.18 美元/CU 小时)~= 5.60 美元