Видео-решения azure AI Content Understanding (предварительная версия)
Внимание
- Служба "Распознавание содержимого ИИ Azure" доступна в предварительной версии. Общедоступные предварительные выпуски предоставляют ранний доступ к функциям, которые находятся в активной разработке.
- Функции, подходы и процессы могут изменяться или иметь ограниченные возможности до общедоступной доступности.
- Дополнительные сведения см. в дополнительных условиях использования для предварительных версий Microsoft Azure.
Azure AI Content Understanding позволяет извлекать и настраивать метаданные видео. Понимание содержимого помогает эффективно управлять, классифицировать, извлекать и создавать рабочие процессы для видеоматериалов. Он улучшает библиотеку ресурсов мультимедиа, поддерживает такие рабочие процессы, как создание выделения, классификация содержимого и упрощение приложений, таких как создание дополненных в формате RAG.
Понимание содержимого для видео имеет широкий потенциал использования. Например, можно настроить метаданные для тегов определенных сцен в обучаемом видео, что упрощает поиск и пересмотр важных разделов сотрудникам. Вы также можете использовать настройку метаданных для идентификации размещения продуктов в рекламных видео, что помогает маркетинговым командам анализировать воздействие бренда.
Варианты использования для бизнеса
Azure AI Content Understanding предоставляет целый ряд вариантов использования бизнес-процессов, в том числе:
- Широковещательный носитель и развлечения: управление большими библиотеками шоу, фильмов и клипов путем создания подробных метаданных для каждого ресурса.
- Образование и обучение e*Learning: индексирование и получение конкретных моментов в образовательных видео или лекциях.
- Корпоративная подготовка: упорядочить обучающие видео по ключевым темам, сценам или важным моментам.
- Маркетинг и реклама: анализ рекламных видеороликов для извлечения размещения продуктов, внешних выступлений и ключевых сообщений.
Возможности распознавания видео
Понимание содержимого обрабатывает видеофайлы с помощью настраиваемого конвейера, который может выполнять задачи извлечения содержимого и извлечения полей. Извлечение содержимого посвящено анализу видео для создания базовых метаданных, а извлечение полей использует эти метаданные для создания более подробных пользовательских аналитических сведений, адаптированных для конкретных вариантов использования. Ниже приведен обзор каждой возможности.
Извлечение содержимого
Извлечение содержимого для видео включает транскрибирование, обнаружение снимков, извлечение ключевых кадров и группирование лиц. Эти операции выполняются по образцу кадров из всего видео и создают структурированные текстовые выходные данные, представляющие видео. Извлечение содержимого также служит для создания возможностей извлечения полей, предоставляя контекст о том, что содержится в видео.
Конкретные возможности извлечения содержимого:
- Транскрибирование. Преобразует речь в структурированный, доступный для поиска текст с помощью службы "Речь ИИ Azure", что позволяет пользователям указывать языки распознавания.
- Обнаружение снимка: определяет сегменты видео, выровненные с границами выстрелов, где это возможно, что позволяет точно редактировать и перепаковывать содержимое с разрывами точно на границах выстрела.
- Извлечение ключевых кадров: извлекает ключевые кадры из видео, чтобы представить каждый снимок полностью, обеспечивая достаточное количество ключевых кадров, чтобы обеспечить эффективную работу извлечения полей.
-
Группирование лиц: сгруппированные лица отображаются в видео, чтобы извлечь один представительный образ лица для каждого человека и предоставляет сегменты, в которых присутствует каждый из них. Сгруппированные данные лица доступны в виде метаданных и могут использоваться для создания настраиваемых полей метаданных.
- Эта функция ограничена доступом и включает идентификацию лиц и группирование лиц; клиентам необходимо зарегистрировать доступ на сайте Распознавания лиц.
Извлечение полей
Извлечение полей позволяет создавать структурированные данные для каждого сегмента видео, например тегов, категорий или описаний, используя настраиваемую схему, адаптированную для ваших потребностей. Структурированные данные упрощают упорядочение, поиск и автоматическое обработку видеоконтента. Извлечение полей использует многомодальную модель создания для извлечения определенных данных из видео, используя ключевые кадры и текстовые выходные данные из извлечения содержимого в качестве входных данных. Извлечение полей позволяет генерирующей модели создавать подробные аналитические сведения на основе визуального содержимого, записанного на снимках, обеспечивая подробную идентификацию.
Примеры полей для различных отраслей:
Управление ресурсами мультимедиа:
- Тип снимка: помогает редакторам и производителям упорядочивать содержимое, упрощать редактирование и понимать визуальный язык видео. Полезно для добавления тегов метаданных и быстрого извлечения сцены.
- Цветовая схема: передает настроение и атмосферу, важную для повествовательной согласованности и участия зрителей. Определение цветовой темы помогает найти соответствующие клипы для ускорения редактирования видео.
Реклама:
- Бренд: определяет присутствие бренда, критическое для анализа влияния рекламы, видимости бренда и связи с продуктами. Эта возможность позволяет рекламодателям оценивать фирменное значение и обеспечивать соответствие рекомендациям по фирменной символичности.
- Категории объявлений: классифицирует типы объявлений по отрасли, типу продукта или сегменту аудитории, который поддерживает целевые стратегии рекламы, классификацию и анализ производительности.
Ключевые преимущества
Понимание содержимого обеспечивает несколько ключевых преимуществ по сравнению с другими решениями для анализа видео:
- Анализ с несколькими кадрами на основе сегментов: определение действий, событий, тем и тем путем анализа нескольких кадров из каждого сегмента видео, а не отдельных кадров.
- Настройка: настройте метаданные, создаваемые путем изменения схемы в соответствии с конкретным вариантом использования.
- Генеривные модели: описывайте на естественном языке то, какое содержимое вы хотите извлечь, и Content Understanding использует генеривные модели для извлечения метаданных.
- Оптимизированная предварительная обработка. Выполнение нескольких шагов предварительной обработки извлечения содержимого, таких как транскрибирование и обнаружение сцен, оптимизировано для предоставления полного контекста для моделей создания ИИ.
Требования к входным данным
Подробные сведения о поддерживаемых форматах входных документов см. на странице " Квоты и ограничения службы".
Поддерживаемые языки и регионы
Подробный список поддерживаемых языков и регионов см . на странице поддержки языков и регионов.
Конфиденциальность и безопасность данных
Как и во всех службах ИИ Azure, разработчики, использующие службу "Распознавание содержимого", должны учитывать политики Майкрософт по данным клиентов. Дополнительные сведения см. на странице "Данные", "Защита и конфиденциальность ".
Внимание
Пользователи службы "Понимание содержимого" могут включать такие функции, как группирование лиц для видео, которые включали обработку биометрических данных. Если вы используете продукты или службы Майкрософт для обработки биометрических данных, вы несете ответственность за: (i) предоставление уведомления субъектам данных, в том числе в отношении периодов хранения и уничтожения; (ii) получение согласия от субъектов данных; и (iii) удаление биометрических данных, все в соответствии с соответствующими требованиями и обязательными в соответствии с применимыми требованиями к защите данных. "Биометрические данные" имеет смысл, указанный в статье 4 GDPR, и, если применимо, эквивалентные термины в других требованиях к защите данных. Дополнительные сведения см. в разделе "Данные и конфиденциальность лиц".
Следующие шаги
- Попробуйте обработать видеоконтент с помощью службы "Основные сведения о содержимом" в портал Azure.
- Узнайте, как анализировать шаблоны анализатора содержимого видео.
- Просмотрите пример кода: извлечение содержимого видео.
- Просмотрите пример кода: поиск видео с запросами естественного языка.
- Просмотр примера кода: шаблоны анализаторов