生成类别分类模型前
生成类别分类模型之前,请确保数据位于 Microsoft Dataverse 中,且构造格式正确。
先决条件
此模型需要训练数据在 Dataverse 表中可用。 目前无法支持来自外部来源的数据。
确保您的管理员已为您分配了具有对包含训练数据的表的读取特权的安全角色。
确保您具有在 Power Platform 环境中创建表的适当权限。 您可以使用系统定制员或系统管理员内置安全角色。
支持语言
AI Builder 类别分类支持以下语言。 若尝试为使用其他语言的文本分类,模型可能无法正常工作。
- 英语
- 法语
- 德语
- 意大利语
- 西班牙语
- 葡萄牙语
数据准备
用于训练 Dataverse 表中模型的训练数据应符合以下要求:
将文本和标签存储为同一个表中的两个列。 每一行必须在文本列中有数据。
您可以为文本列中同一行的数据提供一个或多个标签。 您还可以保留标签列为空。
如果您在文本示例中识别出多个标签,请在标签字段中将它们作为分隔文本提供。 目前,逗号 (,)、分号 (;) 和制表符是支持使用的分隔符。
文本 标记 非常干净、安静的房间,提供免费早餐 进餐, 房间 小但经过精心布置的舒适房间 房间 我喜欢 13 楼的景色 (无) 确保每个要提取的标签至少有 10 个不同的文本样本。 少于 10 个样本的标签不会被训练。 在上一个示例中,应该至少有 10 个行,每个行都加上了进餐和房间标签。
如果数据中标有房间标签的行少于 10 行,它会被忽略。 不会训练模型对该标签的数据进行分类。
对于每个使用的标签,在未使用的地方提供至少 10 个文本样本。
文本 标记 非常干净、安静的房间,提供免费早餐 房间 小但经过精心布置的舒适房间 房间 (无) 房间 如果表中的所有行都标有房间,并且没有行(或少于 10 行)标有另一个标签,模型将无法进入训练过程。
一个表必须至少有两个标签,每个标签必须有 10 个文本样本。
您最多可以定义 200 个不同的标签。 每个标签都是一个类别,从给定的文本中识别和提取。
每个文本数据样本必须少于 5,000 个字符。
若您没有训练数据并且想要试用 AI Builder 类别分类,请按照这些说明使用示例数据。
训练数据格式示例
本节提供 Dataverse 表中训练数据格式的示例。
列数 | 数据类型 | 规模 |
---|---|---|
注释 | 文本 | 3,000 |
标记 | 文本 | 100 |
注释 | 标记 |
---|---|
在我住院期间,我完全被忽视了。 工作人员没有注意到 我有尿路感染。 我还串有感染性肺炎。 |
护理 |
每次到达后很快就有人看到我,所有工作人员、护士、医生 和麻醉师都非常热心。 看上去有很好的团队合作意识。 |
工作人员, 登记 |
设备似乎是最新的。 护士/医疗助理看上去 都很关心。 |
设施, 工作人员 |
备注
如果您没有自己的训练数据并想要试用 AI Builder 类别分类,您可以从下载类别分类模型的示例数据开始。 详细信息:使用样本数据进行类别分类
将数据导入 Dataverse
因为类别分类模型的训练数据需要作为 Dataverse 表提供,所以我们从准备 Dataverse 表中的数据开始。
Dataverse 包含一组强大的连接器,它们可帮助您从多个源导入数据。 详细信息:使用 Power Query 将数据添加到 Microsoft Dataverse 中的表。
例如,我们来看看如何从 Excel 工作簿导入训练数据。 此示例使用的文件中包含下表中显示的内容。
Id | 标记 | 文本 |
---|---|---|
1 | 进餐 | 早餐有点麻烦。 |
2 | 进餐, 房间 | 非常干净、安静的房间,提供免费早餐。 |
3 | 房间, 进餐, 位置 | 我们面对的工作人员非常友好和热心。 门厅和我们的房间都比较干净舒适。 早餐(含)是松饼和百吉饼。 |
4 | 位置, 进餐 | 周边区域遍布酒吧和餐馆。 |
5 | Service | 工作人员很有礼貌。 |
在示例中,标签由逗号 (,) 分隔。 作为替代方法,您可以使用分号 (;) 或制表符。
登录到 Power Apps。
选择您要使用的环境。
选择数据>表。
选择您的表。 如果您还没有表,请按照创建自定义表中的步骤操作。
从所选表的功能区中选择数据>获取数据>从 Excel 获取数据。
在导入数据屏幕上,选择包含本主题前面训练数据格式示例一节引用的数据的 Excel 文件,然后选择上载。
要查看文本类别的列映射屏幕上的字段映射,请选择映射列。
左侧列出了表中定义的所有列。 右侧的下拉列表显示 Excel 文件中可用的列。
将标签、文本和 Id 列从 Excel 映射到表中的相应列。
映射列后,选择右上角的保存更改返回导入步骤。
在您看到映射状态为成功后,选择右上角的导入开始导入过程。
根据导入的数据量,导入过程可能需要几分钟时间。 几分钟后,刷新表的数据选项卡查找从 Excel 文件导入的所有记录。
现在,您可以转到下一步了。