简介

已完成

单值指标(如均方误差或对数损失)是比较模型性能的快速方法。 不过,它们并不总是很直观,也不能始终从全方位提供模型的实际表现。 例如,如果我们尝试检测癌症,但 100,000 个组织样本中只有 1 个实际包含癌症,那么始终显示“无癌症”的模型将具有极佳的对数损失(代价),但这对临床工作毫无用处。 重要的是选择更多智能方法来评估模型,这样你就可以正确了解模型的实际工作原理。

场景:通过机器学习进行山难急救

在整个模块中,我们将使用以下示例场景来说明并练习使用各种指标和数据不平衡。

随着冬天的到来,担心的事情愈发频发,因为徒步旅行者无视雪崩风险警告,甚至在封山后仍冒险进山。 这种行为不仅会导致更多的雪崩,而且因为徒步旅行者在冒险进山之前很少登记,所以没有办法知道雪崩发生时是否有人在山上。 一位慷慨的捐赠者为雪崩救援小组提供了一群小型无人机,这些无人机能够自动扫描山腰上的物体。 由于地形比较极端,再加上蓄电池在寒冷环境中被耗尽,它们的带宽仍然过低,无法传输视频。 而机载传感器可以提取物体形状、大小和运动等基本信息,并将这些信息发送到大本营。 你可以构建一种模型来确定无人机搜寻到人的时间吗,并进一步记录山上的人是谁吗?

先决条件

  • 基本熟悉分类模型

学习目标

在本模块中,你将:

  • 评估分类模型的性能。
  • 查看指标以改进分类模型。
  • 减少由于数据不平衡导致的性能问题。