在 Spark 的 DAG 中确定成本最高的读取

进入 DAG

假设你要查找一项成本高昂的作业,首先我们需要获得正在进行读取的阶段的 ID。 在这里,我们可以看到阶段 ID 为 194:

阶段 ID

现在,我们需要访问 SQL DAG。 向上滚动到作业页面顶部,然后单击“关联的 SQL 查询”

SQL ID

现在应该会看到 DAG。 如果没有,请稍微滚动一下,应该能看到它。

SQL DAG

在某些情况下,可以遵循 DAG 并查看数据的来源。 在其他情况下,请查找你记下的阶段 ID:

在 DAG 中的 SQL 阶段

然后,你需要查找“扫描”节点。 在本例中,很容易看出我们正在读取一个名为 transactions 的表:

DAG 中的 扫描

在某些情况下,可能需要单击或滚动节点才能获取正在读取的数据的位置。