你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Language Studio 标记数据

数据标记是开发生命周期中的关键步骤。 在此步骤中,使用架构中定义的新实体标记文档,以填充其习得的组件。 这些数据将在下一步训练模型时使用,以便模型可以从标记的数据中学习,从而了解提取哪些实体。 如果已标记了数据,可以直接将其导入到项目中,但需要确保数据遵循接受的数据格式。 请参阅创建项目,了解有关如何将标记的数据导入项目。 如果数据尚未标记,可以在 Language Studio 中对其进行标记。

先决条件

标记数据之前,需要:

有关详细信息,请参阅项目开发生命周期

数据标记指南

在准备数据、设计架构和创建项目之后,需要标记数据。 标记数据很重要,以便模型能够知道哪些字词将与需要提取的实体类型相关联。 在 Language Studio 中标记数据(或导入已标记数据)时,这些标签会存储在已连接到此项目的存储容器中的 JSON 文档中。

标记数据时,请记住:

  • 无法为运行状况实体添加文本分析标签,因为它们是预先训练的预生成实体。 只能向在架构定义期间定义的新实体类别添加标签。

如果要提高预生成实体的召回率,可以在定义架构时通过添加列表组件来扩展它。

  • 通常,如果准确标记数据,则标记更多的数据会产生更好的结果。

  • 标记数据的精度、一致性和完整性是确定模型性能的关键因素。

    • 精确标记:始终将每个实体标记为正确的类型。 仅包含要提取的内容,避免标签中出现不必要的数据。
    • 一致标记:同一实体在所有文档中都应具有相同的标签。
    • 完全标记:标记所有文档中实体的所有实例。

    注意

    没有固定数量的标签可以保证模型性能最佳。 模型性能取决于架构中可能存在的歧义以及标记数据的质量。 尽管如此,我们建议每个实体类型有大约 50 个标记的实例。

标记数据

使用以下步骤标记数据:

  1. 转到 Language Studio 中的项目页面。

  2. 在左侧菜单中,选择“数据标记”。 可以在存储容器中找到所有文档的列表。

    提示

    可以使用顶部菜单中的筛选器来查看未标记的文档,以便开始标记它们。 还可以使用筛选器查看标有特定实体类型的文档。

  3. 在顶部菜单的左侧更改为单个文档视图或选择特定文档以开始标记。 可以在左侧找到项目中可用的所有 .txt 文档的列表。 可以使用页面底部的“返回”和“下一步”按钮来浏览文档。

    注意

    如果为项目启用了多种语言,则会在顶部菜单中找到一个“语言”下拉菜单,可用于选择每个文档的语言。 多语言项目不支持希伯来语。

  4. 在右侧窗格中,可以使用“添加实体类型”按钮向项目添加在架构定义过程中遗漏的其他实体。

  5. 有两个选项可用于标记文档:

    选项 说明
    使用画笔标记 选择右侧窗格中实体类型旁边的画笔图标,然后突出显示文档中要使用此实体类型注释的文本。
    使用菜单标记 突出显示要标记为实体的字词,随后将显示一个菜单。 选择要为此实体分配的实体类型。

    以下屏幕截图显示了使用画笔进行标记。

    显示自定义 NER 中提供的标记选项的屏幕截图。

  6. 在“标签”透视下方的右侧窗格中,可以找到项目中的所有实体类型以及每个实体类型的已标记实例数。 将显示预生成的实体以供参考,但你无法为这些预生成的实体添加标签,因为它们已预先训练。

  7. 在右侧窗格的底部,可以将正在查看的当前文档添加到训练集或测试集。 默认情况下,所有文档都将添加到训练集内。 参阅训练和测试集,详细了解它们如何用于模型训练和评估。

    提示

    如果计划使用自动数据拆分,请使用将所有文档分配到训练集中的默认选项。

  8. 在“分布”透视下,可以查看训练集和测试集中的分布。 有两种查看方式:

    • 实例总数,即可以在其中查看特定实体类型的所有已标记实例的计数。
    • 至少具有一个标签的文档,即如果文档至少包含该实体的一个已标记的实例,则将被计算在内。
  9. 标记时,更改会定期同步,如果尚未保存,你会在页面顶部看到一条警告。 如果想手动保存,请选择页面底部的“保存标签”按钮。

删除标签

删除标签的步骤:

  1. 选择要从中删除标签的实体。
  2. 滚动显示的菜单,然后选择“删除标签”。

删除实体

无法删除运行状况预训练实体的任何文本分析,因为它们具有预生成组件。 仅允许删除新定义的实体类别。 若要删除实体,请选择要删除的实体旁边的删除图标。 删除实体后,会从数据集中删除其所有标记的实例。

后续步骤

标记数据后,可以开始训练要基于数据进行学习的模型