你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

接受的数据格式

项目
11/21/2024

如果尝试将数据导入自定义文本分类，则必须遵循特定格式。如果没有要导入的数据，则可以创建项目，并使用 Language Studio 标记文档。

标签文件格式

标签文件应采用以下 json 格式。这样，就可以将标签导入项目中。

多标签分类
单标签分类

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}

密钥	占位符	值	示例
多语言	`true`	通过布尔值，你可以在数据集中有多种语言的文档，并且在部署模型时可以使用任何支持的语言（不一定包含在训练文档中）查询模型。请参阅语言支持，了解有关多语言支持的详细信息。	`true`
projectName	`{PROJECT-NAME}`	项目名称	myproject
storageInputContainerName	`{CONTAINER-NAME}`	容器名称	`mycontainer`
类	[]	包含项目中所有类的数组。这些是要将文档分类的类。	[]
文档	[]	包含项目中所有文档以及为此文档标记类的数组。	[]
location	`{DOCUMENT-NAME}`	存储容器中文档的位置。由于所有文档都位于容器的根目录中，因此此值应为文档名称。	`doc1.txt`
dataset	`{DATASET}`	该文件在训练前被拆分时将进入的测试集。有关详细信息，请参阅如何训练模型。此字段的可能值为 `Train` 和 `Test`。	`Train`

{
    
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomSingleLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "settings": {},
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomSingleLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "class": {
                    "category": "Class2"
                }
            },
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "class": {
                    "category": "Class1"
                }
            }
        ]
    }
}

密钥	占位符	值	示例
projectName	`{PROJECT-NAME}`	项目名称	myproject
storageInputContainerName	`{CONTAINER-NAME}`	容器名称	`mycontainer`
多语言	`true`	通过布尔值，你可以在数据集中有多种语言的文档，并且在部署模型时可以使用任何支持的语言（不一定包含在训练文档中）查询模型。请参阅语言支持，了解有关多语言支持的详细信息。	`true`
类	[]	包含项目中所有类的数组。这些是要将文档分类的类。	[]
文档	[]	包含项目中所有文档以及此文档所属类的数组。	[]
location	`{DOCUMENT-NAME}`	存储容器中文档的位置。由于所有文档都位于容器的根目录中，因此这应为文档名称。	`doc1.txt`
dataset	`{DATASET}`	该文件在训练前被拆分时将进入的测试集。有关详细信息，请参阅如何训练模型。此字段的可能值为 `Train` 和 `Test`。	`Train`

后续步骤

可以直接将标记的数据导入到项目中。请参阅如何创建项目了解有关导入项目的详细信息。
请参阅操作说明文章了解有关如何标记数据的详细信息。完成数据标记后，可以训练模型。

通过

接受的数据格式

标签文件格式

后续步骤

反馈

其他资源