Apache Spark 应用程序详细信息监视

借助 Microsoft Fabric,可以使用 Apache Spark 在工作区中运行笔记本、作业和其他类型的应用程序。 本文介绍如何监视 Apache Spark 应用程序,使你能够关注作业的近期运行状态、问题和进度。

查看 Apache Spark 应用程序

可以从“Spark 作业定义”中查看所有 Apache Spark 应用程序,或者笔记本项上下文菜单会显示“近期运行”选项 - >“近期运行”。

显示近期运行列表和详细信息的屏幕截图。

可以在应用程序列表中选择要查看的应用程序的名称,也可以在应用程序详细信息页中查看应用程序详细信息。

监视 Apache Spark 应用程序状态

打开笔记本或 Spark 作业定义的“近期运行”页面,可以查看 Apache 应用程序的状态。

  • 成功

显示“成功”状态显示位置的屏幕截图。

  • 已排队

显示出现“已排队”状态显示位置的屏幕截图。

  • 已停止

显示“已停止”状态显示位置的屏幕截图。

  • 已取消

显示“已取消”状态显示位置的屏幕截图。

  • 已失败

显示“已失败”状态显示位置的屏幕截图。

作业

从“Spark 作业定义”或“笔记本”项上下文菜单中打开 Apache Spark 应用程序作业,其中显示了“近期运行”选项 ->“近期运行 -> 在“近期运行”页中选择一个作业。

在 Apache Spark 应用程序监控详细信息页面中,作业运行列表显示在“作业”选项卡中,可以在此处查看每个作业的详细信息,包括作业 ID描述 状态阶段任务持续时间已处理读取的数据写入的数据代码片段

  • 单击“作业 ID”可以展开/折叠作业。
  • 单击作业说明,可以跳转到 Spark UI 中的作业或阶段页。
  • 单击作业代码片段,可以检查并复制与此作业相关的代码。

显示作业的屏幕截图。

资源(预览版)

执行程序使用情况图直观地显示 Spark 作业执行程序的分配和资源使用情况。 目前,只有 spark 3.4 及更高版本的运行时信息才会显示此功能。 选择“资源(预览版)”,然后起草有关执行程序使用情况的四种类型曲线,包括“正在运行”、“空闲”、“分配”、“最大实例数”。

屏幕截图显示监视资源使用情况。

  • 对于“已分配”,是指在运行 Spark 应用程序期间分配的核心情况。

  • 对于“最大实例数”,是指分配给 Spark 应用程序的最大核心数。

  • 对于“正在运行”,是指 Spark 应用程序在运行时使用的实际核心数。 在 Spark 应用程序运行时单击某个时间点。 可以在图形底部看到正在运行的执行程序核心分配的详细信息。

    屏幕截图显示正在运行的执行程序核心分配详细信息。

  • 对于“空闲”,它是 Spark 应用程序运行时未使用的核心数。

在某些情况下,在某些时间点,任务数可能超过执行程序核心(即任务编号 > 执行程序核心总数/spark.task.cpus)的容量。 这与预期一样,因为标记为正在运行的任务与实际在执行程序核心上运行的任务之间存在时间差。 因此,某些任务可能显示为正在运行,但它不在任何核心上运行。

选择彩色图标即可选中或取消选中所有草稿中的相应内容。

屏幕截图显示图形选择图标。

摘要面板

在 Apache Spark 应用程序监视页中,单击 “属性”按钮打开/折叠摘要面板。 可以在“详细信息”中查看此应用程序的详细信息。

  • 此 Spark 应用程序的状态。
  • 此 Spark 应用程序的 ID。
  • 总持续时间。
  • 此 Spark 应用程序的运行持续时间。
  • 此 Spark 应用程序的排队持续时间。
  • Livy ID
  • 此 Spark 应用程序的提交者。
  • 提交此 Spark 应用程序的时间。
  • 执行程序数。

显示 Spark 应用程序摘要的屏幕截图。

日志

对于“日志”选项卡,可以查看 Livy预启动驱动程序日志的完整日志,并在左侧面板中选择不同的选项。 还可以通过搜索关键字直接检索所需的日志信息,并通过筛选日志状态来查看日志。 单击“下载日志”可将日志信息下载到本地。

有时会没有可用的日志,例如作业的状态为“已排队”、集群创建失败。

实时日志仅在应用提交失败时可用,并且还提供了驱动程序日志。

显示 Spark 应用程序日志的屏幕截图。

数据

对于“数据”选项卡,可以复制剪贴板上的数据列表、下载数据列表和单个数据,并检查每个数据的属性。

  • 左侧面板可以展开或折叠。
  • 输入和输出文件的名称、读取格式、大小、源和路径将显示在此列表中。
  • 可以下载输入和输出中的文件、复制路径和查看属性。

显示 Spark 应用程序数据的屏幕截图。

项快照

使用“项快照”选项卡,你可以浏览和查看与 Apache Spark 应用程序关联的项,其中包括笔记本、Spark 作业定义和/或管道。 项快照页显示为笔记本执行操作时代码和参数值的快照。 它还显示提交 Spark 作业定义时所有设置和参数的快照。 如果 Apache Spark 应用程序与管道相关联,则“相关项”页还会显示相应的管道和 Spark 活动。

在“项快照”屏幕上,你可以:

  • 浏览和导航分层树中的相关项。
  • 单击每个项的“更多操作列表”椭圆图标以执行不同的操作。
  • 单击快照项以查看其内容。
  • 查看痕迹导航以查看从所选项到根目录的路径。

显示 Spark 应用程序相关项的屏幕截图。

注意

笔记本快照功能目前不支持处于运行状态的笔记本或高并发 Spark 会话中的笔记本。

诊断

诊断面板为用户提供实时建议和错误分析,这些建议和错误分析由 Spark 顾问通过分析用户代码生成。 借助内置模式,Apache Spark 顾问可帮助用户避免常见错误并分析故障以确定其根本原因。

显示 Spark 应用程序诊断的屏幕截图。

查看 Apache Spark 应用程序的详细信息后,下一步是在笔记本单元格下方查看 Spark 作业进度。 可以参考: