你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Language Studio 中使用 Azure 机器学习标记

标记数据是准备数据集的重要部分。 通过 Azure 机器学习中的标签体验,可以更轻松地进行协作、提高灵活性,并能够从 Azure 市场外包标记任务给外部标记供应商。 可以将 Azure 机器学习标记用于:

先决条件

在将标记项目连接到 Azure 机器学习之前,需要:

  • 一个成功创建的 Language Studio 项目和一个配置好的 Azure Blob 存储帐户。
  • 已上传到存储帐户的文本数据。
  • 至少:
    • 一个用于自定义命名实体识别的实体标签,或
    • 两个用于自定义文本分类项目的类标签。
  • 一个已连接到你的 Language Studio 帐户在使用的同一 Azure Blob 存储帐户的 Azure 机器学习工作区

限制

  • 将标记项目连接到 Azure 机器学习是一对一连接。 如果断开项目连接,则无法将项目重新连接回同一 Azure 机器学习项目
  • 不能同时在 Language Studio 和 Azure 机器学习中进行标记。 一次在一个工作室中启用标记体验。
  • 训练模型时,将忽略切换前的标记体验中的测试和训练文件。
  • 只能将 Azure 机器学习的 JSONL 文件格式导入 Language Studio。
  • 启用了多语言选项的项目无法连接到 Azure 机器学习,且并非所有语言都受支持。
  • 要连接到的 Azure 机器学习工作区必须分配到 Language Studio 连接到的同一 Azure 存储帐户。 请确保 Azure 机器学习工作区对存储帐户具有存储 Blob 数据读取者权限。 工作区需要在创建过程中在 Azure 门户中链接到存储帐户。
  • 在两个标记体验之间切换不是即时完成的。 成功完成操作可能需要一段时间。

将 Azure 机器学习标签导入 Language Studio

Language Studio 支持 Azure 机器学习使用的 JSONL 文件格式。 如果你已在 Azure 机器学习上标记数据,则可以在新的自定义项目中导入最新的标签,以利用这两个工作室的功能。

  1. 首先,为自定义文本分类或自定义命名实体识别创建新项目。

    1. 在出现的“创建项目”屏幕中,按照提示连接存储帐户,然后输入有关项目的基本信息。 请确保正在使用的 Azure 资源未连接其他存储帐户。

    2. 在“选择容器”部分中,选择表示你已具有格式正确的文件的选项。 然后选择最新的 Azure 机器学习标签文件。

      显示 Language Studio 中的标签文件选择的屏幕截图。

连接到 Azure 机器学习

在连接到 Azure 机器学习之前,你需要一个 Azure 机器学习帐户,它的定价计划需要满足项目的计算需求。 请参阅先决条件部分,确保你已成功完成将 Language Studio 项目连接到 Azure 机器学习的所有要求。

  1. 使用 Azure 门户导航到与你的语言资源相连接的 Azure Blob 存储帐户。

  2. 确保在你的 Azure Blob 存储帐户的角色分配中将存储 Blob 数据参与者角色分配给 AML 工作区。

  3. Language Studio 中导航到你的项目。 从项目的左侧导航菜单选择“数据标记”。

  4. 在“数据标记”说明或活动窗格下选择“使用 Azure 机器学习进行标记”。

    显示 Azure 机器学习链接的位置的屏幕截图。

  5. 选择“连接到 Azure 机器学习”以启动连接过程。

    显示 Language Studio 中 Azure 机器学习连接按钮的屏幕截图。

  6. 在出现的窗口中,按照提示操作。 选择之前在同一 Azure 订阅下创建的 Azure 机器学习工作区。 输入将创建的新 Azure 机器学习项目的名称,以在 Azure 机器学习中启用标记。

    提示

    在继续操作之前,请确保你的工作区已链接到同一 Azure Blob 存储帐户和语言资源。 可以使用 Azure 门户创建新工作区并链接到你的存储帐户。 确保存储帐户已正确链接到工作区。

  7. (可选)打开供应商标记切换开关以使用标记供应商公司。 在选择供应商标记公司之前,请在 Azure 市场上联系供应商标记公司,与他们敲定合同。 有关与供应商公司合作的详细信息,请参阅如何外包数据标记

    还可以为人工标记人员保留标记说明,以帮助你完成标记过程。 这些说明可以通过留下标签的明确定义并加入示例来帮助他们了解任务,以便获得更好的结果。

  8. 查看与 Azure 机器学习连接的设置,并根据需要进行更改。

    重要

    完成连接是永久性的。 尝试在任何时间点断开已建立的连接后,将永久禁止 Language Studio 项目连接到同一 Azure 机器学习项目。

  9. 启动连接后,将在几分钟内禁用在 Language Studio 中标记数据的功能,以准备新连接。

从 Language Studio 切换到使用 Azure 机器学习进行标记

建立连接后,可以随时通过 Language Studio 中的活动窗格切换到 Azure 机器学习。

显示使用 Azure 机器学习切换为标记的按钮的屏幕截图。

切换时,将禁用在 Language Studio 中标记数据的功能,并且你将能够在 Azure 机器学习中标记数据。 可以随时通过 Azure 机器学习切换回 Language Studio 中的标记。

有关如何标记文本的信息,请参阅 Azure 机器学习如何标记。 有关管理和跟踪文本标记项目的信息,请参阅 Azure 机器学习设置和管理文本标记项目

使用 Azure 机器学习中的标签训练模型

使用 Azure 机器学习切换为标记时,仍可在 Language Studio 中训练、评估和部署模型。 若要使用 Azure 机器学习中更新后的标签训练模型,请执行以下操作:

  1. 从项目的 Language studio 屏幕左侧的导航菜单中选择“训练作业”。

  2. 从训练页的“选择标签源”部分选择“从 Azure 机器学习导入最新标签”。 这会在开始训练作业之前同步 Azure 机器学习中的标签。

    显示在 Azure 机器学习中使用标签的选择器的屏幕截图。

从 Azure 机器学习切换到使用 Language Studio 进行标记

切换到使用 Azure 机器学习进行标记后,可以随时切换回使用 Language Studio 项目进行标记。

注意

  • 只有 Azure 机器学习中具有正确角色的用户才能切换标签。
  • 切换到使用 Language Studio 时,将禁用在 Azure 机器学习上进行标记的功能。

若要切换回使用 Language Studio 进行标记,请执行以下操作:

  1. 导航到 Azure 机器学习中的项目,并从左侧导航菜单中选择“数据标记”。

  2. 选择“Language Studio”选项卡,然后选择“切换到 Language Studio”。

    显示在 Language Studio 中使用标签的选择器的屏幕截图。

  3. 此过程需要几分钟才能完成,在从 Language Studio 切换回之前,将禁用你在 Azure 机器学习中标记的功能。

断开与 Azure 机器学习的连接

断开项目与 Azure 机器学习的连接是一个永久、不可逆的过程,无法撤消。 你将无法再访问 Azure 机器学习中的标签,并且将来无法将 Azure 机器学习项目重新连接到任何 Language Studio 项目。 若要断开与 Azure 机器学习的连接,请执行以下操作:

  1. 通过将标签体验切换回 Language Studio,可确保想要维护的任何更新的标签都与 Azure 机器学习同步。
  2. 在 Language Studio 的左侧导航菜单中选择“项目设置”。
  3. 从“管理 Azure 机器学习连接”部分选择“断开与 Azure 机器学习的连接”按钮。

后续步骤

详细了解如何为自定义文本分类自定义命名实体识别标记数据。