你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
接受的数据格式
如果尝试将数据导入自定义文本分类,则必须遵循特定格式。 如果没有要导入的数据,则可以创建项目,并使用 Language Studio 标记文档。
标签文件格式
标签文件应采用以下 json
格式。 这样,就可以将标签导入项目中。
- 多标签分类
- 单标签分类
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
密钥 | 占位符 | 值 | 示例 |
---|---|---|---|
多语言 | true |
通过布尔值,你可以在数据集中有多种语言的文档,并且在部署模型时可以使用任何支持的语言(不一定包含在训练文档中)查询模型。 请参阅语言支持,了解有关多语言支持的详细信息。 | true |
projectName | {PROJECT-NAME} |
项目名称 | myproject |
storageInputContainerName | {CONTAINER-NAME} |
容器名称 | mycontainer |
类 | [] | 包含项目中所有类的数组。 这些是要将文档分类的类。 | [] |
文档 | [] | 包含项目中所有文档以及为此文档标记类的数组。 | [] |
location | {DOCUMENT-NAME} |
存储容器中文档的位置。 由于所有文档都位于容器的根目录中,因此此值应为文档名称。 | doc1.txt |
dataset | {DATASET} |
该文件在训练前被拆分时将进入的测试集。 有关详细信息,请参阅如何训练模型。 此字段的可能值为 Train 和 Test 。 |
Train |