你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义命名实体识别定义和术语

通过本文了解在使用自定义 NER 时可能会遇到的一些定义和术语。

实体

实体是指示特定类型信息的文本范围。 文本范围可包含一个或多个单词。 在自定义 NER 的范围内,实体表示用户希望从文本中提取的信息。 开发人员先使用所需的实体标记其数据中的实体,然后再将其传递给模型进行训练。 例如,发票编号、开始日期、装运编号、原产地、来源城市,或客户地址。

例如,在“John 从 Fred 处借了 25,000 美元”这句话中,实体可能如下:

实体名称/类型 实体
借款人姓名 John
贷款人姓名 Fred
贷款金额 25,000 美元

F1 分数

F1 分数是精准率和召回率的函数。 在精准率召回率之间进行平衡时,需要用到它。

型号

模型是经过训练来执行特定任务的对象,在此示例中为自定义实体识别。 将通过提供要从中进行学习的带标记数据来训练模型,以便以后可以将其用于识别任务。

  • 模型训练指的是指导你的模型根据带标记数据提取相关内容的过程。
  • 模型评估是一种在训练后立即进行的过程,可了解模型的性能情况。
  • 部署指的是将模型分配到部署以便通过预测 API 使用它的过程。

Precision

度量模型的精确度/准确度。 它是正确识别的正值(真正)与所有识别出的正值之间的比率。 精准率指标指示正确标记了多少个预测类。

Project

项目是一个工作区,用于基于你的数据构建自定义 ML 模型。 只有你和对所使用的 Azure 资源具有访问权限的其他人才能访问你的项目。 作为创建自定义实体提取项目的先决条件,在创建新项目时,必须将资源连接到包含数据集的存储帐户。 你的项目自动包含容器中所有可用的 .txt 文件。

在项目中,你可以执行以下操作:

  • 标记数据:对你的数据进行标记,以便在训练模型时模型可了解你要提取的内容。
  • 构建和训练模型:项目的核心步骤,模型在此步骤中将开始从带标记数据中进行学习。
  • 查看模型评估详细信息:查看模型性能,以确定是否有改进空间,或者你是否对结果感到满意。
  • 部署:在你查看了模型的性能并确定它可在环境中使用之后,你需要将该模型分配给某个部署以便使用它。 将模型分配给部署会使其可通过预测 API 使用。
  • 测试模型:部署模型后,在 Language Studio 中测试你的部署,以了解它在生产环境中的性能。

Recall

度量模型预测实际正类的能力。 这是预测的真正值与实际标记的结果之间的比率。 召回率指标显示正确的预测类的数量。

后续步骤