Поделиться через


Настройка языковой модели с помощью Индексатора видео Azure AI

Индексатор видео Azure AI поддерживает автоматическое распознавание речи с помощью интеграции с Пользовательской службой распознавания речи Майкрософт. Вы можете настроить языковую модель, отправив текст адаптации. Этот текст поступает из домена, словарь которого вы хотите использовать подсистему для адаптации. После обучения модели новые слова, отображаемые в тексте адаптации, распознается, предполагая произношение по умолчанию, и языковая модель узнает новые вероятные последовательности слов. Список поддерживаемых языков Индексатора видео в Azure AI см. в поддерживаемых ланге.

Например, Kubernetes (в контексте службы Azure Kubernetes ) — это слово, которое является очень конкретным. Так как слово является новым для Индексатора видео в Azure AI, оно признано "сообществами". Обучить модель, чтобы распознать ее как Kubernetes. В других случаях слова существуют, но языковая модель не ожидает их отображения в определенном контексте. Например, "служба контейнеров" не является 2-словной последовательностью, которую неспециализированная языковая модель распознает как определенный набор слов.

Существует два способа настройки языковой модели:

  • Вариант 1. Изменение расшифровки, созданной индексатором видео Azure AI. Изменив и исправив расшифровку, вы обучаете языковую модель, чтобы обеспечить улучшенные результаты в будущем.
  • Вариант 2. Отправка текстовых файлов для обучения языковой модели. Файл может содержать список слов, так как они должны отображаться в расшифровке индексатора видео или соответствующие слова, включенные естественным образом в предложения и абзацы. По мере достижения лучших результатов с помощью последнего подхода рекомендуется отправить файл, чтобы он содержал полные предложения или абзацы, связанные с вашим содержимым.

Внимание

Не включайте слова или предложения, как в настоящее время неправильно транскрибированные (например, "сообщества") в файл отправки, так как это приведет к снижению предполагаемого влияния. Включайте только слова, как они будут отображаться (например, Kubernetes).

Оптимизация пользовательской языковой модели

Индексатор видео Azure AI учится на основе вероятностей сочетаний слов, поэтому для лучшего изучения:

  • Предоставляйте достаточно реальных примеров предложений так, как их могли бы произносить.
  • Размещайте только одно предложение в строке, не более. В противном случае система изучит вероятности между предложениями.
  • Это нормально поставить одно слово в качестве предложения, чтобы повысить слово против других, но система учится лучше всего из полных предложений.
  • Если возможно, при внедрении новых слов или сокращений предоставляйте как можно больше примеров использования в полном предложении, чтобы предоставить системе как можно больше контекста.
  • Попробуйте несколько вариантов адаптации и узнайте, как они работают для вас.
  • Избегайте повторения одного предложения несколько раз. Может возникнуть смещение относительно остальных входных данных.
  • Избегайте включения необычных символов (~, # # % &) по мере того, как они будут удалены. Предложения, в которых они появляются, также будут отклонены.
  • Избегайте размещения слишком больших входных данных, например тысячи предложений, так как это может ослабить эффект бустинга.

Необходимые компоненты

  • Учетная запись Azure.
  • Учетная запись индексатора видео Azure AI

Создание языковой модели

  1. Перейдите на веб-сайт Индексатора видео Azure ИИ и войдите в систему.
  2. Чтобы настроить модель в учетной записи, в левой части страницы нажмите кнопку Настройка модели содержимого.
  3. Выберите вкладку "Язык ". Вы увидите список поддерживаемых языков.
  4. Под требуемым языком выберите Добавить модель.
  5. Введите имя языковой модели и нажмите клавишу ВВОД. На этом этапе будет создана модель, и у вас появится возможность передавать в нее текстовые файлы.
  6. Чтобы добавить текстовый файл, выберите Добавить файл. Откроется обозреватель файлов.
  7. Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов. Вы также можете добавить текстовый файл, нажав кнопку ... в правой части языковой модели и нажав кнопку "Добавить файл".
  8. После передачи текстовых файлов нажмите кнопку Обучить зеленого цвета.

Процесс обучения может занять несколько минут. После завершения обучения обученный появится рядом с моделью. Вы можете просматривать, скачивать и удалять файл из модели.

Использование языковой модели в новом видео

Чтобы использовать языковую модель в новом видео, выполните одно из следующих действий:

  1. Нажмите кнопку Передать в верхней части страницы.
  2. Перетащите аудио- или видеофайл или перейдите к своему файлу.
  3. Выберите языковую модель, созданную в раскрывающемся списке "Исходный язык видео".
  4. Выберите параметр Передать в нижней части страницы, и новое видео будет проиндексировано с использованием вашей языковой модели.

Использование языковой модели для переиндексации

  1. Войдите на домашнюю страницу Индексатора видео Azure AI.
  2. Нажмите кнопку ... на видео и выберите пункт Повторное индексирование.
  3. Выберите раскрывающийся список "Исходный видео" и выберите языковую модель, созданную в списке.
  4. Нажмите кнопку "Переиндексировать", и видео будет переиндексировано с помощью языковой модели.

Изменение языковой модели

Вы можете изменить языковую модель, изменив его имя, добавив в него файлы и удалив файлы из него. При добавлении или удалении файлов из языковой модели необходимо снова обучить модель, выбрав зеленый параметр "Обучение ".

Переименование языковой модели

Вы можете изменить имя языковой модели, нажав кнопку с многоточием (...) в правой части языковой модели и выбрав "Переименовать". Введите новое имя.

Добавление файлов

  1. Щелкните Добавить файл. Откроется обозреватель файлов.
  2. Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов.

Вы также можете добавить текстовый файл, нажав кнопку с многоточием (...) в правой части языковой модели и нажав кнопку "Добавить файл".

Удаление файлов

Это действие полностью удаляет файл из языковой модели.

  1. Нажмите кнопку с многоточием (...) справа от текстового файла.
  2. Выберите команду Удалить. Появится новое окно с сообщением о том, что удаление невозможно отменить.
  3. Выберите пункт Удалить в новом окне.

Удаление языковой модели

Это действие полностью удаляет языковую модель из учетной записи. Любое видео, использующее модель deletedlLanguage, будет хранить тот же индекс, пока не будет переиндексировать видео. При повторном индексе видео можно назначить новую языковую модель видео. В противном случае индексатор видео Azure AI будет использовать свою модель по умолчанию для повторного анализа видео.

  1. Нажмите кнопку с многоточием (...) в правой части языковой модели.
  2. Выберите команду Удалить. Появится новое окно с сообщением о том, что удаление невозможно отменить.
  3. Выберите пункт Удалить в новом окне.

Настройка языковых моделей путем исправления расшифровок

Индексатор видео Azure AI настраивает языковые модели на основе фактических исправлений, внесенных пользователями в транскрибирование видео. Он записывает все строки, исправленные в транскрибировании видео, и добавляет их в текстовый файл с именем From transcript edits. Эти изменения используются для повторного обучения языковой модели, которая использовалась для индексирования видео.

Изменения, выполненные на временной шкале мини-приложения , также включены.

Если вы не указали языковую модель при индексировании этого видео, все изменения для этого видео хранятся в языковой модели по умолчанию, вызываемой Account adaptations в пределах обнаруженного языка видео.

Если в одной строке было выполнено несколько изменений, для обновления языковой модели используется только последняя версия исправленной строки.

Примечание.

Для настройки используются только текстовые исправления. Исправления, не затрагивающие реальные слова (например, знаки пунктуации и пробелы), не включаются.

  1. Выберите видео, которое нужно изменить из библиотеки.
  2. Перейдите на вкладку Временная шкала.
  3. Щелкните значок с изображением карандаша, чтобы изменить произносимый текст.
  4. Вы увидите исправления расшифровки на вкладке "Язык" страницы настройки Con режим палатки l. Чтобы просмотреть файл "Из изменений в расшифровке" для каждой языковой модели, выберите его, чтобы открыть.