在 Spark 的 DAG 中确定成本最高的读取

项目
02/08/2025

进入 DAG

假设你要查找一项成本高昂的作业，首先我们需要获得正在进行读取的阶段的 ID。在这里，我们可以看到阶段 ID 为 194：

阶段 ID

现在，我们需要访问 SQL DAG。向上滚动到作业页面顶部，然后单击“关联的 SQL 查询”：

SQL ID

现在应该会看到 DAG。如果没有，请稍微滚动一下，应该能看到它。

SQL DAG

在某些情况下，可以遵循 DAG 并查看数据的来源。在其他情况下，请查找你记下的阶段 ID：

在 DAG 中的 SQL 阶段

然后，你需要查找“扫描”节点。在本例中，很容易看出我们正在读取一个名为 transactions 的表：

DAG 中的扫描

在某些情况下，可能需要单击或滚动节点才能获取正在读取的数据的位置。