Поделиться через


Перенос кода из версии 3.0 в версию 3.1 REST API

REST API преобразования речи в текст используется для быстрого транскрибирования, пакетной транскрибирования и пользовательской речи. Изменения версии 3.0 до 3.1 описаны в следующих разделах.

Внимание

Версия REST API 2024-11-15 преобразования речи в текст — это последняя версия, общедоступная.

  • Версия 2024-05-15-preview REST API преобразования речи в текст будет прекращена в датах, которые будут объявлены.
  • Речь в REST API v3.0, v3.1, v3.23.2-preview.1и 3.2-preview.2 будет прекращена 1 апреля 2026 года.

Дополнительные сведения об обновлении см. в руководствах по миграции службы "Речь на текст" REST API версии 3.0 до версии 3.1, версии 3.1 до версии 3.2 и версии 3.2 до 2024-11-15.

Базовый путь

Необходимо обновить базовый путь в коде/speechtotext/v3.1./speechtotext/v3.0 Например, чтобы получить базовые модели в регионе eastus , используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/baseнего.

Обратите внимание на следующие другие изменения:

  • Операция /models/{id}/copyto (включая "/") в версии 3.0 заменяется /models/{id}:copyto операцией (включает ":") в версии 3.1.
  • Операция /webhooks/{id}/ping (включая "/") в версии 3.0 заменяется /webhooks/{id}:ping операцией (включает ":") в версии 3.1.
  • Операция /webhooks/{id}/test (включая "/") в версии 3.0 заменяется /webhooks/{id}:test операцией (включает ":") в версии 3.1.

Дополнительные сведения см . в разделе идентификаторы операций далее в этом руководстве.

Пакетное транскрибирование

Примечание.

Не используйте преобразование речи в текст REST API версии 3.0 для получения транскрибирования, созданного с помощью преобразования речи в текст REST API версии 3.1. Вы увидите сообщение об ошибке, например следующее: "Версия API не может использоваться для доступа к этому транскрибированию. Используйте API версии 3.1 или более поздней.

В операции Transcriptions_Create добавляются следующие три свойства:

  • Это displayFormWordLevelTimestampsEnabled свойство можно использовать для включения отчетов меток времени на уровне слова в виде отображения результатов транскрибирования. Результаты возвращаются в displayWords свойстве файла транскрибирования.
  • Свойство diarization можно использовать для указания минимального и максимального количества меток говорящего для создания при выполнении необязательной диаризации (разделение говорящего). Благодаря этой функции служба теперь может генерировать метки динамика для более чем двух динамиков. Чтобы использовать это свойство, необходимо также задать diarizationEnabled для trueсвойства значение . С помощью API версии 3.1 мы увеличили число динамиков, которые можно определить путем диаризации из двух динамиков, поддерживаемых API версии 3.0. Рекомендуется сохранить количество докладчиков в возрасте до 30 для повышения производительности.
  • Свойство languageIdentification можно использовать для указания параметров идентификации языка для входных данных перед транскрибированием. Для идентификации языка поддерживается до 10 кандидатов языковых стандартов. Возвращаемое транскрибирование включает новое locale свойство для распознанного языка или языкового стандарта, предоставленного вами.

Свойство filter добавляется в операции Transcriptions_List, Transcriptions_ListFiles и Projects_ListTranscriptions . Выражение filter можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName, , description, createdDateTimelastActionDateTimeиstatuslocale. Например: filter=createdDateTime gt 2022-02-01T11:00:00Z

Если вы используете веб-перехватчик для получения уведомлений о состоянии транскрибирования, обратите внимание, что веб-перехватчики, созданные через API версии 3.0, не могут получать уведомления для запросов транскрибирования версии 3.1. Для получения уведомлений о запросах транскрибирования версии 3.1 необходимо создать конечную точку веб-перехватчика с помощью API версии 3.1.

Настраиваемая речь

Наборы данных

Для отправки и управления несколькими блоками данных для набора данных добавляются следующие операции:

  • Datasets_UploadBlock. Отправка блока данных для набора данных. Максимальный размер блока составляет 8МиБ.
  • Datasets_GetBlocks. Получение списка загруженных блоков для этого набора данных.
  • Datasets_CommitBlocks . Зафиксируйте список блокировок для завершения отправки набора данных.

Для поддержки адаптации модели с структурированным текстом в данных Markdown операция Datasets_Create теперь поддерживает тип данных LanguageMarkdown. Дополнительные сведения см. в разделе "Отправка наборов данных".

Модели

Операции Models_ListBaseModels и Models_GetBaseModel возвращают сведения о типе адаптации, поддерживаемом каждой базовой моделью.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

Операция Models_Create имеет новое customModelWeightPercent свойство, в котором можно указать вес, используемый при использовании пользовательской языковой модели (обученной из простых или структурированных текстовых данных) в сочетании с базовой языковой моделью. Допустимые значения — целые числа от 1 до 100. В настоящее время значение по умолчанию равно 30.

Свойство filter добавляется в следующие операции:

Выражение filter можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName, , description, lastActionDateTimecreatedDateTime, localestatusи kind. Например: filter=locale eq 'en-US'

Добавлена операция Models_ListFiles для получения файлов модели, определяемой указанным идентификатором.

Добавлена операция Models_GetFile , чтобы получить один конкретный файл (идентифицируемый с помощью fileId) из модели (идентифицируется с идентификатором). Это позволяет получить файл ModelReport, содержащий информацию о данных, обработанных во время обучения.

Идентификаторы операций

Необходимо обновить базовый путь в коде/speechtotext/v3.1./speechtotext/v3.0 Например, чтобы получить базовые модели в регионе eastus , используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/baseнего.

Имя каждого из них operationId в версии 3.1 префиксируется именем объекта. Например, operationId для "Создать модель" было изменено с CreateModel в версии 3.0 на Models_Create в версии 3.1.

Операция /models/{id}/copyto (включая "/") в версии 3.0 заменяется /models/{id}:copyto операцией (включает ":") в версии 3.1.

Операция /webhooks/{id}/ping (включая "/") в версии 3.0 заменяется /webhooks/{id}:ping операцией (включает ":") в версии 3.1.

Операция /webhooks/{id}/test (включая "/") в версии 3.0 заменяется /webhooks/{id}:test операцией (включает ":") в версии 3.1.

Следующие шаги