Форматы данных, принимаемые распознаванием устной речи

Статья
2025-04-03

Если вы загружаете ваши данные в систему понимания разговорного языка, они должны соответствовать определенному формату. Используйте эту статью, чтобы узнать больше о принятых форматах данных.

Импорт формата файла проекта

Если вы импортируете проект в разговорное распознавание речи, отправленный файл должен быть в следующем формате:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Ключ	Заполнитель	Значение	Пример
`{API-VERSION}`	Версия вызываемого API.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Это пороговая оценка, ниже которой намерение может быть предсказано как None intent. Значения находятся в диапазоне от `01`.	`0.7`
`projectName`	`{PROJECT-NAME}`	Имя проекта. Это значение чувствительно к регистру.	`EmailApp`
`multilingual`	`true`	Логическое значение, позволяющее иметь высказывания на нескольких языках в вашем наборе данных. При развертывании модели можно запрашивать модель на любом поддерживаемом языке (не обязательно включаемом в обучающие документы). Дополнительные сведения о поддерживаемых языковых кодах см. в разделе "Поддержка языка".	`true`
`sublists`	`[]`	Массив, содержащий подсписки. Каждый вложенный список является ключом и связанными с ним значениями.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Правило, определяющее, как управлять несколькими компонентами вашей сущности. Варианты `combineComponents` или `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Массив, содержащий все синонимы.	синоним
`language`	`{LANGUAGE-CODE}`	Строка, указывающая языковой код для речевых фрагментов, синонимов и регулярных выражений, используемых в проекте. Если проект является многоязычным проектом, выберите языковой код большинства речевых фрагментов.	`en-us`
`intents`	`[]`	Массив, содержащий все намерения, которые есть в проекте. Эти намерения классифицируются на основе ваших высказываний.	`[]`
`entities`	`[]`	Массив, содержащий все сущности в вашем проекте. Эти сущности извлекаются из ваших речевых высказываний. Каждая сущность может иметь другие необязательные компоненты, определенные с ними: список, предварительно созданные или regex.	`[]`
`dataset`	`{DATASET}`	Набор тестов, в который попадает это высказывание, когда он разбивается перед обучением. Дополнительные сведения о разбиении данных см. в статье "Тренировка модели понимания разговорного языка". Возможные значения для этого поля: `Train` и `Test`.	`Train`
`category`		Тип сущности, связанной с заданным фрагментом текста.	`Entity1`
`offset`		Позиция начала сущности, включая начальный символ.	`5`
`length`		Длина символа сущности.	`5`
`listKey`		Нормализованное значение для списка синонимов, чтобы связать с прогнозом.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Список строк, разделенных запятыми, которые точно совпадают для извлечения и сопоставляются с ключом списка.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Нормализованное значение для сопоставления с регулярным выражением, к которому возвращаются при прогнозировании.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	регулярное выражение.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Предварительно созданные компоненты, которые могут извлекать распространенные типы. Чтобы ознакомиться со списком предварительно созданных компонентов, которые можно добавить, см. раздел "Поддерживаемые предварительно созданные компоненты сущностей".	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Параметр, указывающий на необходимость присутствия определенного компонента для возврата сущности. Дополнительные сведения см. в разделе "Компоненты сущности". Возможные значения: `learned`, `regexlist`или `prebuilts`.	`"learned", "prebuilt"`

Формат файла речевых высказываний

Понимание разговорного языка предоставляет возможность загружать ваши высказывания непосредственно в проект, вместо того чтобы вводить их по одному. Этот параметр можно найти на странице маркировки данных для проекта.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Ключ	Заполнитель	Значение	Пример
`text`	`{Utterance-Text}`	Текст вашего высказывания.	Тестирование
`language`	`{LANGUAGE-CODE}`	Строка, указывающая языковой код для речевых фрагментов, используемых в проекте. Если проект является многоязычным проектом, выберите языковой код большинства речевых фрагментов. Дополнительные сведения о поддерживаемых языковых кодах см. в разделе "Поддержка языка".	`en-us`
`dataset`	`{DATASET}`	Набор для тестирования, к которому относится это высказывание, когда проводится разделение данных перед обучением. Дополнительные сведения о разбиении данных см. в Обучении модели понимания разговорного языка. Возможные значения для этого поля: `Train` и `Test`.	`Train`
`intent`	`{intent}`	Назначенная цель.	(intent1 remains unchanged as it is assumed to be a placeholder or specific term).
`entity`	`{entity}`	Извлекаемая сущность.	entity1
`category`		Тип сущности, связанной с заданным фрагментом текста.	`Entity1`
`offset`		Позиция символа начала текста (включая сам символ).	`0`
`length`		Длина ограничивающего прямоугольника в символах UTF16. При обучении учитываются данные только в этом регионе.	`500`

Дополнительные сведения о импорте помеченных данных в проект см. в разделе "Импорт проекта".
Дополнительные сведения о маркировке данных см. в разделе "Метка речевых фрагментов" в Language Studio. После того как вы нанесете метки на ваши данные, вы сможете обучить вашу модель.

Поделиться через

Форматы данных, принимаемые распознаванием устной речи

Импорт формата файла проекта

Формат файла речевых высказываний

Связанный контент

Обратная связь

Дополнительные ресурсы