你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
健康状况自定义文本分析中接受的数据格式
使用本文了解如何设置要导入健康状况自定义文本分析的数据的格式。
如果尝试将数据导入健康状况自定义文本分析,则必须遵循特定格式。 如果没有要导入的数据,可以创建项目并使用 Language Studio 来标记文档。
标签文件应采用下面的 json
格式,以便在将标签导入到项目中时使用。
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
密钥 | 占位符 | 值 | 示例 |
---|---|---|---|
multilingual |
true |
通过布尔值,你可以在数据集中有多种语言的文档,并且在部署模型时可以使用任何支持的语言(不一定包含在训练文档中)查询模型。 请参阅语言支持,了解有关多语言支持的详细信息。 | true |
projectName |
{PROJECT-NAME} |
项目名称 | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
容器名称 | mycontainer |
entities |
一个数组,其中包含项目中的所有实体类型。 这些是将从文档提取到的实体类型。 | ||
category |
实体类型的名称,可以是用户为新实体定义所定义的名称,也可以是为预生成实体预定义的名称。 有关详细信息,请参阅下面的实体命名规则。 | ||
compositionSetting |
{COMPOSITION-SETTING} |
定义如何在实体中管理多个组件的规则。 选项是 combineComponents 或 separateComponents 。 |
combineComponents |
list |
包含项目中特定实体的所有子列表的数组。 可以将列表添加到预生成实体或具有已学习组件的新实体。 | ||
sublists |
[] |
包含子列表的数组。 每个子列表都包含一个键及其关联的值。 | [] |
listKey |
One |
在预测中要映射回的同义词列表的规范化值。 | One |
synonyms |
[] |
包含所有同义词的数组 | 同义词 (synonym) |
language |
{LANGUAGE-CODE} |
指定子列表中同义词语言代码的字符串。 如果项目是多语言项目,并且你希望支持项目中所有语言的同义词列表,则必须将同义词显式添加到每种语言。 有关受支持的语言代码的详细信息,请参阅语言支持。 | en |
values |
"EntityNumberone" 、"FirstEntity" |
将完全匹配的逗号分隔字符串的列表,用于提取并映射到列表键。 | "EntityNumberone" 、"FirstEntity" |
prebuilts |
MedicationName |
填充预生成实体的预生成组件的名称。 默认情况下,预生成的实体会自动加载到项目中,但你可以使用标签文件中的列表组件扩展它们。 | MedicationName |
documents |
一个数组,其中包含项目中的所有文档和每个文档中标记的实体列表。 | [] | |
location |
{DOCUMENT-NAME} |
存储容器中文档的位置。 由于所有文档都位于容器的根目录中,因此这应为文档名称。 | doc1.txt |
dataset |
{DATASET} |
此文件在训练前拆分时将归类到的测试集。 可在此处了解有关数据拆分的详细信息。 此字段的可能值为 Train 和 Test 。 |
Train |
regionOffset |
文本开头的非独占字符位置。 | 0 |
|
regionLength |
以 UTF16 字符表示的边界框长度。 训练仅考虑此区域的数据。 | 500 |
|
category |
与指定文本跨度关联的实体类型。 | Entity1 |
|
offset |
实体文本的起始位置。 | 25 |
|
length |
以 UTF16 字符表示的实体长度。 | 20 |
|
language |
{LANGUAGE-CODE} |
指定项目中所使用文档的语言代码的字符串。 如果项目是多语言项目,请选择大多数文档的语言代码。 有关受支持的语言代码的详细信息,请参阅语言支持。 | en |
实体命名规则
- 预生成的实体名称已预定义。 它们必须使用预生成的组件填充,并且必须与实体名称匹配。
- 新的用户定义实体(具有已学习组件或已标记文本的实体)无法使用预生成的实体名称。
- 不能使用预生成组件填充新的用户定义实体,因为预生成组件必须与关联的实体名称匹配,并且文档数组中没有为其分配标记的数据。