Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Если вы загружаете ваши данные в систему понимания разговорного языка, они должны соответствовать определенному формату. Используйте эту статью, чтобы узнать больше о принятых форматах данных.
Импорт формата файла проекта
Если вы импортируете проект в разговорное распознавание речи, отправленный файл должен быть в следующем формате:
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Ключ | Заполнитель | Значение | Пример |
---|---|---|---|
{API-VERSION} |
Версия вызываемого API. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Это пороговая оценка, ниже которой намерение может быть предсказано как None intent. Значения находятся в диапазоне от 0 1 . |
0.7 |
projectName |
{PROJECT-NAME} |
Имя проекта. Это значение чувствительно к регистру. | EmailApp |
multilingual |
true |
Логическое значение, позволяющее иметь высказывания на нескольких языках в вашем наборе данных. При развертывании модели можно запрашивать модель на любом поддерживаемом языке (не обязательно включаемом в обучающие документы). Дополнительные сведения о поддерживаемых языковых кодах см. в разделе "Поддержка языка". | true |
sublists |
[] |
Массив, содержащий подсписки. Каждый вложенный список является ключом и связанными с ним значениями. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Правило, определяющее, как управлять несколькими компонентами вашей сущности. Варианты combineComponents или separateComponents . |
combineComponents |
synonyms |
[] |
Массив, содержащий все синонимы. | синоним |
language |
{LANGUAGE-CODE} |
Строка, указывающая языковой код для речевых фрагментов, синонимов и регулярных выражений, используемых в проекте. Если проект является многоязычным проектом, выберите языковой код большинства речевых фрагментов. | en-us |
intents |
[] |
Массив, содержащий все намерения, которые есть в проекте. Эти намерения классифицируются на основе ваших высказываний. | [] |
entities |
[] |
Массив, содержащий все сущности в вашем проекте. Эти сущности извлекаются из ваших речевых высказываний. Каждая сущность может иметь другие необязательные компоненты, определенные с ними: список, предварительно созданные или regex. | [] |
dataset |
{DATASET} |
Набор тестов, в который попадает это высказывание, когда он разбивается перед обучением. Дополнительные сведения о разбиении данных см. в статье "Тренировка модели понимания разговорного языка". Возможные значения для этого поля: Train и Test . |
Train |
category |
|
Тип сущности, связанной с заданным фрагментом текста. | Entity1 |
offset |
|
Позиция начала сущности, включая начальный символ. | 5 |
length |
|
Длина символа сущности. | 5 |
listKey |
|
Нормализованное значение для списка синонимов, чтобы связать с прогнозом. | Microsoft |
values |
{VALUES-FOR-LIST} |
Список строк, разделенных запятыми, которые точно совпадают для извлечения и сопоставляются с ключом списка. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Нормализованное значение для сопоставления с регулярным выражением, к которому возвращаются при прогнозировании. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
регулярное выражение. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Предварительно созданные компоненты, которые могут извлекать распространенные типы. Чтобы ознакомиться со списком предварительно созданных компонентов, которые можно добавить, см. раздел "Поддерживаемые предварительно созданные компоненты сущностей". | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Параметр, указывающий на необходимость присутствия определенного компонента для возврата сущности. Дополнительные сведения см. в разделе "Компоненты сущности". Возможные значения: learned , regex list или prebuilts . |
"learned", "prebuilt" |
Формат файла речевых высказываний
Понимание разговорного языка предоставляет возможность загружать ваши высказывания непосредственно в проект, вместо того чтобы вводить их по одному. Этот параметр можно найти на странице маркировки данных для проекта.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Ключ | Заполнитель | Значение | Пример |
---|---|---|---|
text |
{Utterance-Text} |
Текст вашего высказывания. | Тестирование |
language |
{LANGUAGE-CODE} |
Строка, указывающая языковой код для речевых фрагментов, используемых в проекте. Если проект является многоязычным проектом, выберите языковой код большинства речевых фрагментов. Дополнительные сведения о поддерживаемых языковых кодах см. в разделе "Поддержка языка". | en-us |
dataset |
{DATASET} |
Набор для тестирования, к которому относится это высказывание, когда проводится разделение данных перед обучением. Дополнительные сведения о разбиении данных см. в Обучении модели понимания разговорного языка. Возможные значения для этого поля: Train и Test . |
Train |
intent |
{intent} |
Назначенная цель. | (intent1 remains unchanged as it is assumed to be a placeholder or specific term). |
entity |
{entity} |
Извлекаемая сущность. | entity1 |
category |
|
Тип сущности, связанной с заданным фрагментом текста. | Entity1 |
offset |
|
Позиция символа начала текста (включая сам символ). | 0 |
length |
|
Длина ограничивающего прямоугольника в символах UTF16. При обучении учитываются данные только в этом регионе. | 500 |
Связанный контент
- Дополнительные сведения о импорте помеченных данных в проект см. в разделе "Импорт проекта".
- Дополнительные сведения о маркировке данных см. в разделе "Метка речевых фрагментов" в Language Studio. После того как вы нанесете метки на ваши данные, вы сможете обучить вашу модель.