你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Language Studio 中标记数据

在训练模型之前,需要使用要提取的自定义实体来标记文档。 数据标记是开发生命周期中的关键步骤。 在此步骤中,可以创建要从数据中提取的实体类型,并在文档中标记这些实体。 这些数据将在下一步训练模型时使用,以便模型可以从标记的数据中学习。 如果已有标记的数据,可以直接将其导入到项目中,但需要确保数据遵循可接受的数据格式。 请参阅创建项目,了解有关如何将标记的数据导入项目。

在创建自定义 NER 模型之前,需要先拥有标记的数据。 如果数据尚未标记,可以在 Language Studio 中对其进行标记。 标记的数据可告知模型如何解释文本,并且会用于训练和评估。

先决条件

标记数据之前,需要:

有关详细信息,请参阅项目开发生命周期

数据标记指南

准备数据、设计架构创建项目之后,需要标记数据。 标记数据很重要,以便模型能够知道哪些字词将与需要提取的实体类型相关联。 在 Language Studio 中标记数据(或导入已标记数据)时,这些标签将存储在已连接到此项目的存储容器中的 JSON 文档中。

标记数据时,请记住:

  • 通常,如果准确标记数据,则标记更多的数据会产生更好的结果。

  • 标记数据的精度、一致性和完整性是确定模型性能的关键因素。

    • 精确标记:始终将每个实体标记为正确的类型。 仅包含要提取的内容,避免标签中出现不必要的数据。
    • 一致标记:同一实体在所有文档中都应具有相同的标签。
    • 完全标记:标记所有文档中实体的所有实例。 可以使用自动标记功能来确保完全标记。

    注意

    没有固定数量的标签可以保证模型性能最佳。 模型性能取决于架构中可能存在的歧义以及标记数据的质量。 尽管如此,我们建议每个实体类型有大约 50 个标记的实例。

标记数据

使用以下步骤标记数据:

  1. 转到 Language Studio 中的项目页面。

  2. 在左侧菜单中,选择“数据标记”。 可以在存储容器中找到所有文档的列表。

    提示

    可以使用顶部菜单中的筛选器来查看未标记的文档,以便开始标记它们。 还可以使用筛选器查看标有特定实体类型的文档。

  3. 在顶部菜单的左侧更改为单个文档视图或选择特定文档以开始标记。 可以在左侧找到项目中可用的所有 .txt 文档的列表。 可以使用页面底部的“返回”和“下一步”按钮来浏览文档。

    注意

    如果为项目启用了多种语言,则会在顶部菜单中找到一个“语言”下拉菜单,可用于选择每个文档的语言。

  4. 在右侧窗格中,向项目“添加实体类型”,以便可以开始使用它们标记数据。

  5. 有两个选项可用于标记文档:

    选项 说明
    使用画笔标记 选择右侧窗格中实体类型旁边的画笔图标,然后突出显示文档中要使用此实体类型注释的文本。
    使用菜单标记 突出显示要标记为实体的字词,随后将显示一个菜单。 选择要为此实体分配的实体类型。

    以下屏幕截图显示了使用画笔进行标记。

    显示自定义 NER 中提供的标记选项的屏幕截图。

  6. 在“标签”透视下方的右侧窗格中,可以找到项目中的所有实体类型以及每个实体类型的已标记实例数。

  7. 在右侧窗格的底部,可以将正在查看的当前文档添加到训练集或测试集。 默认情况下,所有文档都将添加到训练集内。 详细了解训练集和测试集以及它们如何用于模型训练和评估。

    提示

    如果计划使用自动数据拆分,请使用将所有文档分配到训练集中的默认选项。

  8. 在“分布”透视下,可以查看训练集和测试集中的分布。 有两种查看方式:

    • 实例总数,即可以在其中查看特定实体类型的所有已标记实例的计数。
    • 至少具有一个标签的文档,即如果文档至少包含该实体的一个已标记的实例,则将被计算在内。
  9. 标记时,更改将定期同步,如果尚未保存,你会在页面顶部看到一条警告。 如果想手动保存,请选择页面底部的“保存标签”按钮。

删除标签

删除标签的步骤:

  1. 选择要从中删除标签的实体。
  2. 滚动显示的菜单,然后选择“删除标签”。

删除实体

若要删除实体,请选择要删除的实体旁边的删除图标。 删除实体将从数据集中删除其所有标记的实例。

后续步骤

标记数据后,可以开始训练要基于数据进行学习的模型