在 Language Studio 中标记语句

为项目生成架构之后，应向项目添加训练言语。这些言语应类似于用户在与项目交互时将使用的言语。添加语句时，必须指定该言语所属的意图。添加语句后，标记语句中要提取为实体的字词。

标记数据是开发生命周期中的关键步骤；训练模型时，此数据将在下一步骤中使用，以便模型可以从标记的数据中学习。如果已标记了语句，可以直接将其导入项目，但需要确保数据遵循接受的数据格式。请参阅创建项目，了解有关如何将标记的数据导入项目。标记的数据可告知模型如何解释文本，并且会用于训练和评估。

先决条件

标记数据之前，需要：

有关详细信息，请参阅项目开发生命周期。

在生成架构和创建项目之后，需要标记数据。标记数据非常重要，这样模型就会知道哪些字词和句子可与项目中的意向和实体关联。你需要花时间标记语句 - 引入和优化将用于训练模型的数据。

添加语句并标记它们时，请记住：

机器学习模型根据提供的标记示例通用化；提供的示例越多，模型就有越多的数据点来更好地通用化。
标记数据的精度、一致性和完整性是确定模型性能的关键因素。
- 精确标记：始终将每个意向和实体标记为正确的类型。仅包含要分类和提取的内容，避免标签中出现不必要的数据。
- 一致标记：同一实体在所有语句中都应具有相同的标记。
- 完全标记：为每个意向提供不同的语句。标记所有语句中实体的所有实例。

确保实体引用的概念定义清晰且可分离。检查是否可以轻松可靠地确定差异。否则，不区分大小写可能表明习得的组件也会遇到问题。
如果实体之间存在相似性，请确保数据的某些方面提供了它们之间的差异标志。

例如，如果你生成了一个模型来预订航班，用户可能会使用此类语句：“我想要预订从波士顿飞往西雅图的航班。”此类语句的“出发地城市”和“目的地城市”应该类似。区分“出发地城市”的一个信号可能是，它的前面经常出现“从”一词。
确保在训练数据和测试数据中标记每个实体的所有实例。一种方法是使用搜索函数查找数据中某个字词或短语的所有实例，以检查是否正确标记。
为没有习得组件的实体标记测试数据，同时也为具有习得组件的实体标记测试数据。这种做法有助于确保评估指标准确。

对于多语言项目，添加其他语言的语句可以提高模型在这些语言中的性能，但要避免跨你要支持的所有语言复制数据。例如，为了提高日历机器人在用户中的性能，开发人员可能会添加主要使用英语的示例，以及一些使用西班牙语或法语的示例。他们可能会添加以下言语：
- “安排明天中午 12 点与 Matt 和 Kevin 会面。”（英语）
- “采用暂定方式答复每周更新会议。”（英语）
- “Cancelar mi próxima reunión。”（西班牙语）

使用以下步骤标记语句：

转到 Language Studio 中的项目页面。
在左侧菜单中，选择“数据标记”。在此页中，可以开始添加语句并标记它们。还可以通过单击顶部菜单中的“上传语句文件”直接上传语句，请确保它遵循可接受的格式。
从顶部透视中，可以将视图更改为“训练集”或“测试集”。详细了解训练集和测试集以及它们如何用于模型训练和评估。

提示

如果计划使用“从训练数据中自动拆分测试集”拆分，请将所有语句添加到训练集中。
在“选择意向”下拉菜单中，选择其中一个意向、语句的语言（对于多语言项目），以及语句本身。在语句的文本框中按 Enter 键以添加语句。

有两个选项来标记语句中的实体：

选项	说明
使用画笔标记	选择右侧窗格中实体旁边的画笔图标，然后突出显示语句中你想要标记的文本。
使用内联菜单标记	突出显示要标记为实体的字词，随后将显示一个菜单。选择要标记这些字词的实体。

在“标记”透视下方的右侧窗格中，可以找到项目中的所有实体类型以及每个实体类型的已标记实例数。
在“分布”透视下，可以查看训练集和测试集中的分布。有两种查看方式：
- 每个标记实体的实例总数，即可以在其中查看特定实体类型的所有已标记实例的计数。
- 每个标记实体的唯一语句，如果每个语句包含此实体的至少一个标记实例，那么就要把每个语句都计算进去。
- 每个意向的语句，可在其中查看每个意向的语句数量。

注意

列表和预生成组件不会显示在数据标记页中，此处的所有标签仅适用于已学习的组件。

删除标签：

删除实体：

在 CLU 中，使用 Azure OpenAI 建议要向使用 GPT 模型的项目添加的语句。首先需要在 Azure OpenAI 中获取访问权限并创建资源。然后，需要为 GPT 模型创建部署。按照此处的先决条件步骤操作。

在开始之前，仅当语言资源位于以下区域时，建议话语功能才可用：

在“数据标记”页中：

选择“建议语句”按钮。右侧将打开一个窗格，提示你选择 Azure OpenAI 资源和部署。
选择 Azure OpenAI 资源后，选择“连接”，这样语言资源就可以直接访问 Azure OpenAI 资源。它将语言资源的角色 Cognitive Services User 分配给 Azure OpenAI 资源，从而允许当前语言资源访问 Azure OpenAI 服务。如果连接失败，可按照下面的步骤手动将正确的角色添加到 Azure OpenAI 资源。
连接资源后，选择部署。 Azure OpenAI 部署的建议模型是 text-davinci-002。
选择要获取建议的意向。请确保所选的意向至少有 5 个保存的语句，以便为语句建议启用这些语句。 Azure OpenAI 提供的建议以你为该意向添加的最新语句为基础。
选择“生成语句”。完成后，系统将显示由虚线包围的建议语句，并注明 AI 生成。你需要接受或拒绝这些建议。接受建议，系统就会将其添加到项目中，就像你自己添加的一样。拒绝建议则会完全删除相应建议。只有接受的语句会成为项目的一部分，并用于训练或测试。可以通过单击每个语句旁边的绿色对勾或红色取消按钮来接受或拒绝。还可以使用工具栏中的 Accept all 和 Reject all 按钮。