在 Spark 的 DAG 中确定成本最高的读取
进入 DAG
假设你要查找一项成本高昂的作业,首先我们需要获得正在进行读取的阶段的 ID。 在这里,我们可以看到阶段 ID 为 194:
现在,我们需要访问 SQL DAG。 向上滚动到作业页面顶部,然后单击“关联的 SQL 查询”:
现在应该会看到 DAG。 如果没有,请稍微滚动一下,应该能看到它。
在某些情况下,可以遵循 DAG 并查看数据的来源。 在其他情况下,请查找你记下的阶段 ID:
在 DAG 中的
然后,你需要查找“扫描”节点。 在本例中,很容易看出我们正在读取一个名为 transactions
的表:
DAG 中的
在某些情况下,可能需要单击或滚动节点才能获取正在读取的数据的位置。