Поделиться через


Получение аналитических сведений о транскрибировании мультимедиа, переводе и идентификации языка

Транскрибирование мультимедиа, перевод и идентификация языка

Транскрибирование, перевод и идентификация языка обнаруживает, транскрибирует и преобразует речь в файлах мультимедиа на более чем 50 языков.

Индексатор видео Azure (VI) обрабатывает речь в звуковом файле, чтобы извлечь транскрибирование, которое затем преобразуется на многие языки. При выборе для перевода на определенный язык транскрибирование и аналитические сведения, такие как ключевые слова, разделы, метки или OCR, переводятся на указанный язык. Транскрибирование можно использовать как или сочетать с аналитическими сведениями докладчика, которые сопоставляют и назначают расшифровки в динамики. В звуковом файле можно обнаружить несколько динамиков. Идентификатор назначается каждому докладчику и отображается под их транскрибируемой речью.

Идентификация языка (LID) распознает поддерживаемый доминирующий язык в видеофайле. Дополнительные сведения см. в разделе "Применение LID".

Многоязычная идентификация (MLID) автоматически распознает языки в разных сегментах звукового файла и отправляет каждый сегмент, который будет транскрибирован на определенных языках. В конце этого процесса все транскрибирования объединяются в один файл. Дополнительные сведения см. в разделе "Применение MLID". Полученные аналитические сведения создаются в списке с категоризированным списком в JSON-файле, включающем идентификатор, язык, транскрибированный текст, длительность и оценку достоверности.

При индексировании файлов мультимедиа с несколькими динамиками Индексатор видео Azure выполняет диаризацию динамиков, которая определяет каждый динамик в видео и атрибуты каждой транскрибированной строки динамику. Докладчики получают уникальное удостоверение, например говорящего #1 и докладчика #2. Это позволяет идентифицировать докладчиков во время беседы и может быть полезно в различных сценариях, таких как беседы с врачом-пациентом, взаимодействие с агентом-клиентом и судебное разбирательство.

Варианты использования транскрибирования мультимедиа, перевода и идентификации языка

  • Повышение специальных возможностей путем обеспечения доступности для людей с ограниченными возможностями слуха с помощью Индексатора видео Azure для создания речи для транскрибирования текста и перевода на несколько языков.
  • Улучшение распространения содержимого для различных аудиторий в разных регионах и языках путем доставки содержимого на нескольких языках с помощью транскрибирования и перевода индексатора видео Azure.
  • Повышение и улучшение создания субтитров и субтитров вручную с помощью возможностей транскрибирования и перевода индексатора видео Azure ИИ и использования закрытых субтитров, созданных Индексатором видео Azure в одном из поддерживаемых форматов.
  • Использование идентификации языка (LID) или многоязычной идентификации (MLID) для транскрибирования видео на неизвестных языках, чтобы позволить Индексатору видео Azure AI автоматически определять языки, отображаемые в видео, и создавать транскрибирование соответствующим образом.

Просмотр json аналитики с помощью веб-портала

После отправки и индексирования видео аналитические сведения доступны в формате JSON для скачивания с помощью веб-портала.

  1. Перейдите на вкладку "Библиотека ".
  2. Выберите носитель, с которым вы хотите работать.
  3. Выберите "Скачать" и "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
  4. Найдите пару ключей, описанную в примере ответа.

Использование API

  1. Используйте запрос на получение индекса видео. Мы рекомендуем передать &includeSummarizedInsights=false.
  2. Найдите пары ключей, описанные в примере ответа.

Пример отклика

Все языки, обнаруженные в видео, находятся в источникеLanauge, и каждый экземпляр в сектине транскрибирования включает в себя язык, прошедший проверку.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Внимание

Важно прочитать общие сведения о прозрачности для всех функций VI. Каждое представление также имеет заметки о прозрачности собственных:

Заметки о транскрибировании, переводе и идентификации языка

При использовании ответственно и тщательно индексатора видео Azure AI является ценным инструментом для многих отраслей. Вы всегда должны уважать конфиденциальность и безопасность других лиц, а также соблюдать местные и глобальные правила. Примите во внимание следующие рекомендации.

  • Тщательно рассмотрите точность результатов, чтобы повысить точность данных, проверить качество звука, низкое качество звука может повлиять на обнаруженные аналитические данные.
  • Индексатор видео не выполняет распознавание говорящего, поэтому динамики не назначают идентификатор в нескольких файлах. Не удается найти отдельный динамик в нескольких файлах или расшифровках.
  • Идентификаторы говорящего назначаются случайным образом и могут использоваться только для различения разных динамиков в одном файле.
  • Перекрестное общение и перекрытие речи: когда несколько докладчиков одновременно или прерывают друг друга, модель становится сложной для точного различения и назначения правильного текста соответствующим ораторам.
  • Перекрытие говорящего: иногда динамики могут иметь аналогичные шаблоны речи, акценты или использовать аналогичный словарь, что затрудняет для модели различать их.
  • Шумный звук: плохое качество звука, фоновый шум или низкое качество записи могут препятствовать способности модели правильно идентифицировать и транскрибировать динамики.
  • Эмоциональная речь: эмоциональные вариации речи, такие как крики, плач или крайнее волнение, могут повлиять на способность модели точно диаризировать говорящего.
  • Маскировка или олицетворение говорящего: если динамик намеренно пытается имитировать или маскировать свой голос, модель может неправильно определить динамик.
  • Неоднозначная идентификация говорящего: некоторые сегменты речи могут не иметь достаточно уникальных характеристик для модели, чтобы уверенно атрибутировать конкретному говорящему.
  • Звук, содержащий языки, отличные от выбранных, создает непредвиденные результаты.
  • Минимальная длина сегмента для обнаружения каждого языка составляет 15 секунд.
  • Смещение обнаружения языка составляет 3 секунды в среднем.
  • Предполагается, что речь будет непрерывной. Частые изменения между языками могут повлиять на производительность модели.
  • Речь неродной динамики может повлиять на производительность модели (например, когда докладчики используют свой первый язык и переходят на другой язык).
  • Модель предназначена для распознавания спонтанной речи с разумной звуковой акустической акустической связью (а не голосовых команд, пения и т. д.).
  • Создание и редактирование проекта недоступны для видео с несколькими языками.
  • Пользовательские языковые модели недоступны при обнаружении нескольких языков.
  • Добавление ключевых слов не поддерживается.
  • Указание языка не включается в экспортируемый файл закрытого заголовка.
  • Расшифровка обновления в API не поддерживает несколько файлов языков.
  • Модель предназначена для распознавания спонтанной речи (а не голосовых команд, пения и т. д.).
  • Если индексатор видео Azure AI не может определить язык с достаточной уверенностью (больше 0,6), резервный язык — английский.

Ниже приведен список поддерживаемых языков.

Компоненты расшифровки, перевода и идентификации языка

Во время транскрибирования, преобразования и идентификации языка речь в файле мультимедиа обрабатывается следующим образом:

Компонент Определение
Исходный язык Пользователь отправляет исходный файл для индексирования и либо:
— указывает исходный язык видео.
— выбирает автоматическое обнаружение одного языка (LID), чтобы определить язык файла. Выходные данные сохраняются отдельно.
— выбирает автоматическое обнаружение нескольких языков (MLID), чтобы определить несколько языков в файле. Выходные данные каждого языка сохраняются отдельно.
API транскрибирования Звуковой файл отправляется службам ИИ Azure, чтобы получить транскрибированные и переведенные выходные данные. Если указан язык, он обрабатывается соответствующим образом. Если язык не указан, процесс LID или MLID выполняется для идентификации языка, после которого обрабатывается файл.
Объединение выходных данных Транскрибированные и переведенные файлы объединяются в один и тот же файл. Выходные данные включают идентификатор говорящего каждого извлеченного предложения вместе с уровнем достоверности.
Значение достоверности Предполагаемый уровень достоверности каждого предложения вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82.

Пример кода

См. все примеры для VI