Получение аналитических сведений о транскрибировании мультимедиа, переводе и идентификации языка
Транскрибирование мультимедиа, перевод и идентификация языка
Транскрибирование, перевод и идентификация языка обнаруживает, транскрибирует и преобразует речь в файлах мультимедиа на более чем 50 языков.
Индексатор видео Azure (VI) обрабатывает речь в звуковом файле, чтобы извлечь транскрибирование, которое затем преобразуется на многие языки. При выборе для перевода на определенный язык транскрибирование и аналитические сведения, такие как ключевые слова, разделы, метки или OCR, переводятся на указанный язык. Транскрибирование можно использовать как или сочетать с аналитическими сведениями докладчика, которые сопоставляют и назначают расшифровки в динамики. В звуковом файле можно обнаружить несколько динамиков. Идентификатор назначается каждому докладчику и отображается под их транскрибируемой речью.
Идентификация языка (LID) распознает поддерживаемый доминирующий язык в видеофайле. Дополнительные сведения см. в разделе "Применение LID".
Многоязычная идентификация (MLID) автоматически распознает языки в разных сегментах звукового файла и отправляет каждый сегмент, который будет транскрибирован на определенных языках. В конце этого процесса все транскрибирования объединяются в один файл. Дополнительные сведения см. в разделе "Применение MLID". Полученные аналитические сведения создаются в списке с категоризированным списком в JSON-файле, включающем идентификатор, язык, транскрибированный текст, длительность и оценку достоверности.
При индексировании файлов мультимедиа с несколькими динамиками Индексатор видео Azure выполняет диаризацию динамиков, которая определяет каждый динамик в видео и атрибуты каждой транскрибированной строки динамику. Докладчики получают уникальное удостоверение, например говорящего #1 и докладчика #2. Это позволяет идентифицировать докладчиков во время беседы и может быть полезно в различных сценариях, таких как беседы с врачом-пациентом, взаимодействие с агентом-клиентом и судебное разбирательство.
Варианты использования транскрибирования мультимедиа, перевода и идентификации языка
- Повышение специальных возможностей путем обеспечения доступности для людей с ограниченными возможностями слуха с помощью Индексатора видео Azure для создания речи для транскрибирования текста и перевода на несколько языков.
- Улучшение распространения содержимого для различных аудиторий в разных регионах и языках путем доставки содержимого на нескольких языках с помощью транскрибирования и перевода индексатора видео Azure.
- Повышение и улучшение создания субтитров и субтитров вручную с помощью возможностей транскрибирования и перевода индексатора видео Azure ИИ и использования закрытых субтитров, созданных Индексатором видео Azure в одном из поддерживаемых форматов.
- Использование идентификации языка (LID) или многоязычной идентификации (MLID) для транскрибирования видео на неизвестных языках, чтобы позволить Индексатору видео Azure AI автоматически определять языки, отображаемые в видео, и создавать транскрибирование соответствующим образом.
Просмотр json аналитики с помощью веб-портала
После отправки и индексирования видео аналитические сведения доступны в формате JSON для скачивания с помощью веб-портала.
- Перейдите на вкладку "Библиотека ".
- Выберите носитель, с которым вы хотите работать.
- Выберите "Скачать" и "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
- Найдите пару ключей, описанную в примере ответа.
Использование API
- Используйте запрос на получение индекса видео. Мы рекомендуем передать
&includeSummarizedInsights=false
. - Найдите пары ключей, описанные в примере ответа.
Пример отклика
Все языки, обнаруженные в видео, находятся в источникеLanauge, и каждый экземпляр в сектине транскрибирования включает в себя язык, прошедший проверку.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Внимание
Важно прочитать общие сведения о прозрачности для всех функций VI. Каждое представление также имеет заметки о прозрачности собственных:
Заметки о транскрибировании, переводе и идентификации языка
При использовании ответственно и тщательно индексатора видео Azure AI является ценным инструментом для многих отраслей. Вы всегда должны уважать конфиденциальность и безопасность других лиц, а также соблюдать местные и глобальные правила. Примите во внимание следующие рекомендации.
- Тщательно рассмотрите точность результатов, чтобы повысить точность данных, проверить качество звука, низкое качество звука может повлиять на обнаруженные аналитические данные.
- Индексатор видео не выполняет распознавание говорящего, поэтому динамики не назначают идентификатор в нескольких файлах. Не удается найти отдельный динамик в нескольких файлах или расшифровках.
- Идентификаторы говорящего назначаются случайным образом и могут использоваться только для различения разных динамиков в одном файле.
- Перекрестное общение и перекрытие речи: когда несколько докладчиков одновременно или прерывают друг друга, модель становится сложной для точного различения и назначения правильного текста соответствующим ораторам.
- Перекрытие говорящего: иногда динамики могут иметь аналогичные шаблоны речи, акценты или использовать аналогичный словарь, что затрудняет для модели различать их.
- Шумный звук: плохое качество звука, фоновый шум или низкое качество записи могут препятствовать способности модели правильно идентифицировать и транскрибировать динамики.
- Эмоциональная речь: эмоциональные вариации речи, такие как крики, плач или крайнее волнение, могут повлиять на способность модели точно диаризировать говорящего.
- Маскировка или олицетворение говорящего: если динамик намеренно пытается имитировать или маскировать свой голос, модель может неправильно определить динамик.
- Неоднозначная идентификация говорящего: некоторые сегменты речи могут не иметь достаточно уникальных характеристик для модели, чтобы уверенно атрибутировать конкретному говорящему.
- Звук, содержащий языки, отличные от выбранных, создает непредвиденные результаты.
- Минимальная длина сегмента для обнаружения каждого языка составляет 15 секунд.
- Смещение обнаружения языка составляет 3 секунды в среднем.
- Предполагается, что речь будет непрерывной. Частые изменения между языками могут повлиять на производительность модели.
- Речь неродной динамики может повлиять на производительность модели (например, когда докладчики используют свой первый язык и переходят на другой язык).
- Модель предназначена для распознавания спонтанной речи с разумной звуковой акустической акустической связью (а не голосовых команд, пения и т. д.).
- Создание и редактирование проекта недоступны для видео с несколькими языками.
- Пользовательские языковые модели недоступны при обнаружении нескольких языков.
- Добавление ключевых слов не поддерживается.
- Указание языка не включается в экспортируемый файл закрытого заголовка.
- Расшифровка обновления в API не поддерживает несколько файлов языков.
- Модель предназначена для распознавания спонтанной речи (а не голосовых команд, пения и т. д.).
- Если индексатор видео Azure AI не может определить язык с достаточной уверенностью (больше 0,6), резервный язык — английский.
Ниже приведен список поддерживаемых языков.
Компоненты расшифровки, перевода и идентификации языка
Во время транскрибирования, преобразования и идентификации языка речь в файле мультимедиа обрабатывается следующим образом:
Компонент | Определение |
---|---|
Исходный язык | Пользователь отправляет исходный файл для индексирования и либо: — указывает исходный язык видео. — выбирает автоматическое обнаружение одного языка (LID), чтобы определить язык файла. Выходные данные сохраняются отдельно. — выбирает автоматическое обнаружение нескольких языков (MLID), чтобы определить несколько языков в файле. Выходные данные каждого языка сохраняются отдельно. |
API транскрибирования | Звуковой файл отправляется службам ИИ Azure, чтобы получить транскрибированные и переведенные выходные данные. Если указан язык, он обрабатывается соответствующим образом. Если язык не указан, процесс LID или MLID выполняется для идентификации языка, после которого обрабатывается файл. |
Объединение выходных данных | Транскрибированные и переведенные файлы объединяются в один и тот же файл. Выходные данные включают идентификатор говорящего каждого извлеченного предложения вместе с уровнем достоверности. |
Значение достоверности | Предполагаемый уровень достоверности каждого предложения вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82. |