Azure AI Video Indexer 개요

아티클
10/09/2024

Azure AI Video Indexer 는 Azure AI 서비스(예: Face, Translator, Azure AI Vision 및 Speech)를 기반으로 하는 Azure AI 서비스의 일부인 클라우드 애플리케이션입니다. 이 애플리케이션을 사용하면 Azure AI Video Indexer 비디오 및 오디오 모델을 사용하여 비디오에서 인사이트를 추출할 수 있습니다.

Azure AI Video Indexer는 AI 모델을 30개 이상 실행하여 비디오 및 오디오 콘텐츠를 분석하여 풍부한 인사이트를 생성합니다. 다음 그림에서는 Azure AI Video Indexer가 백그라운드에서 수행하는 오디오 및 비디오 분석을 보여줍니다.

Azure AI Video Indexer를 사용하여 인사이트를 추출하려면 시작 방법 섹션을 참조하세요.

Azure AI Video Indexer를 사용하여 무엇을 수행할 수 있나요?

Azure AI Video Indexer의 인사이트는 다음과 같은 여러 시나리오에 적용할 수 있습니다.

딥 서치: 비디오에서 추출된 인사이트를 사용하여 비디오 라이브러리 전체에서 검색 환경을 개선합니다. 예를 들어 음성 단어와 얼굴을 인덱싱하면 비디오에서 사람이 특정 단어를 말했거나 두 사람이 함께 본 시점을 찾는 검색 환경을 사용할 수 있습니다. 비디오에서 이 인사이트에 기반한 검색은 뉴스 기관, 교육 기관, 방송사, 엔터테인먼트 콘텐츠 소유자, 엔터프라이즈 LOB 앱 및 일반적으로 사용자가 검색해야 하는 비디오 라이브러리가 있는 모든 산업에 적용됩니다.
콘텐츠 만들기: Azure AI Video Indexer가 콘텐츠에서 추출하는 인사이트를 기반으로 하여 후행부, 하이라이트 릴, 소셜 미디어 콘텐츠 또는 뉴스 클립을 만듭니다. 사람 및 레이블 모양의 키 프레임, 장면 제작자 및 타임스탬프를 통해 만들기 프로세스가 훨씬 더 원활하고 쉽게 수행되어 콘텐츠를 만들 때 필요한 비디오 부분에 쉽게 접근할 수 있습니다.
접근성: 장애가 있는 사람이 콘텐츠를 사용할 수 있게 하거나 다양한 언어를 사용하여 콘텐츠를 여러 지역에 배포하려는 경우 Azure AI Video Indexer에서 제공하는 음성 텍스트와 번역을 여러 언어로 사용할 수 있습니다.
수익 창출: Azure AI Video Indexer는 비디오의 가치를 높이는 데 도움이 될 수 있습니다. 예를 들어 광고 수익(뉴스 미디어, 소셜 미디어 등)에 의존하는 산업은 추출된 인사이트를 광고 서버에 대한 추가 신호로 사용하여 관련 광고를 전달할 수 있습니다.
콘텐츠 조정: 텍스트 및 시각적 콘텐츠 조정 모델을 사용하여 부적절한 콘텐츠로부터 사용자를 보호하고 게시한 콘텐츠가 조직 가치에 부합하는지 검증합니다. 자동으로 특정 비디오를 차단하거나 사용자에게 콘텐츠에 관해 경고할 수 있습니다.
추천: 사용자에게 관련 비디오 시점을 강조하여 사용자 참여를 향상시키는 데 비디오 인사이트를 사용할 수 있습니다. 추가 메타데이터로 비디오마다 태그를 지정하면 가장 관련성이 높은 비디오를 사용자에게 추천하고 필요 맞는 비디오의 부분을 강조 표시할 수 있습니다.

비디오/오디오 AI 기능

다음 목록에서는 Azure AI Video Indexer 비디오 및 오디오 AI 기능(모델)을 사용하여 비디오/오디오 파일에서 검색할 수 있는 인사이트를 보여줍니다.

참고 항목

개인 정보 보호 및 규정 요구 사항이 지정된 경우 이러한 기능 중 일부는 사용이 제한되거나 전체 활용을 위한 권한 부여가 필요합니다.

달리 지정하지 않으면 일반적으로 모델을 사용할 수 있습니다.

비디오 모델

얼굴 감지: 비디오에 표시되는 얼굴을 감지하고 그룹화합니다.
유명 인사 식별: 전 세계의 지도자, 배우, 예술가, 연구원, 비즈니스 및 기술 리더와 같은 100만 명 이상의 유명 인사를 식별합니다. 이와 같은 유명인에 관한 데이터는 다양한 웹 사이트(IMDB, Wikipedia 등)에서도 찾아볼 수 있습니다.
계정 기반 얼굴 식별: 특정 계정에 대한 모델을 학습시킵니다. 그런 다음, 학습된 모델을 기반으로 비디오에서 얼굴을 인식합니다. 자세한 내용은 Azure AI Video Indexer 웹 사이트에서 개인 모델 사용자 지정 및 Azure AI Video Indexer API를 사용하여 개인 모델 사용자 지정을 참조하세요.
얼굴 썸네일 추출: 각 얼굴 그룹에서 가장 잘 캡처된 얼굴을 식별하고(품질, 크기 및 정면 위치 기준) 이미지 자산으로 추출합니다.
OCR(광학 인식): 미디어 파일의 사진, 도로 표지판 및 제품과 같은 이미지에서 텍스트를 추출하여 인사이트를 만듭니다.
시각적 콘텐츠 조정: 성인 및/또는 선정적 시각적 개체를 검색합니다.
레이블 식별: 표시되는 시각적 개체 및 작업을 식별합니다.
장면 구분: 시각적 큐를 기반으로 비디오에서 장면이 변경되는 시기를 결정합니다. 장면은 단일 이벤트를 묘사하며 의미상 관련된 일련의 연속 샷으로 구성됩니다.
샷 감지: 시각적 큐를 기반으로 비디오에서 샷이 변경되는 시기를 결정합니다. 샷은 동일한 영화 촬영 카메라에서 촬영된 일련의 프레임입니다. 자세한 내용은 장면, 샷 및 키 프레임을 참조하세요.
검정 프레임 감지: 비디오에 표시되는 검은색 프레임을 식별합니다.
키 프레임 추출: 비디오에서 안정적인 키 프레임을 검색합니다.
롤링 크레딧: TV 프로그램과 영화의 끝 부분에 있는 롤링 크레딧의 시작과 끝을 식별합니다.
편집 샷 유형 감지: 해당 유형(예: 와이드 샷, 중간 샷, 클로즈업, 익스트림 클로즈업, 2인 샷, 여러 사람, 실외, 실내 등)에 따라 태그를 샷에 지정합니다. 자세한 내용은 편집 샷 유형 검색을 참조하세요.
관찰된 사람 감지: 비디오에서 관찰된 사람을 감지하고 비디오 프레임에서 사용자의 위치(경계 상자 사용) 및 사람이 나타날 때 정확한 타임스탬프(시작, 끝) 및 신뢰도와 같은 정보를 제공합니다. 자세한 내용은 비디오에서 관찰된 사람 추적을 참조하세요.
- 일치하는 사람: 비디오에서 관찰된 사람과 해당 얼굴이 감지된 사람과 일치합니다. 관찰된 사람과 얼굴 간의 일치는 신뢰도 수준을 포함합니다.
- 검색된 의류: 비디오에 나타나는 사람들의 의류 유형을 감지하고 긴 소매 또는 반소매, 긴 바지 또는 짧은 바지, 스커트 또는 드레스와 같은 정보를 제공합니다. 감지된 의류는 입고 있는 사람과 연결되며, 감지에 대한 신뢰도 수준과 함께 정확한 타임스탬프(시작, 끝)가 제공됩니다.
- 추천 의류: 비디오에 나타나는 주요 의류 이미지를 캡처합니다. 추천 의류 인사이트를 사용하여 타겟 광고를 향상시킬 수 있습니다. 추천 의류 이미지의 순위를 매기는 방법과 인사이트를 얻는 방법에 대한 자세한 내용은 추천 의류를 참조하세요.
개체 검색 은 추적되는 고유 개체를 검색하여 프레임으로 돌아가면 인식됩니다. Azure AI Video Indexer 개체 검색 참조
슬레이트 감지: 고급 인덱싱 옵션을 사용하여 비디오를 인덱싱할 때 다음 영화 프로덕션 후 인사이트를 식별합니다.
- 메타데이터 추출을 사용하여 크래퍼보드 검색
- 색 막대를 포함한 디지털 패턴 검색
- 장면 매칭을 포함한 텍스트 없는 슬레이트 검색
자세한 내용은 슬레이트 검색을 참조하세요.
텍스트 로고 검색: Azure AI Video Indexer OCR을 사용하여 미리 정의된 특정 텍스트와 일치합니다. 예를 들어 사용자가 "Microsoft"라는 텍스트 로고를 만든 경우 Microsoft라는 단어의 다양한 모양이 "Microsoft" 로고로 감지됩니다. 자세한 내용은 텍스트 로고 감지를 참조하세요.

오디오 모델

오디오 대화 내용 기록: 음성을 50개 이상 언어의 텍스트로 변환하고 확장을 허용합니다. 자세한 내용은 Azure AI Video Indexer 언어 지원을 참조하세요.
자동 언어 감지: 주요 음성 언어를 식별합니다. 자세한 내용은 Azure AI Video Indexer 언어 지원을 참조하세요. 언어를 확실하게 식별할 수 없으면 Azure AI Video Indexer에서는 음성 언어가 영어라고 가정합니다.
다국어 음성 식별 및 전사: 오디오의 여러 세그먼트에서 음성 언어를 식별합니다. 미디어 파일의 각 세그먼트를 전사되도록 전송한 다음 전사를 다시 하나의 통합된 전사로 결합합니다. 전사에 대한 자세한 내용은 전사를 참조 하세요.
자막: 자막을 VTT, TTML, SRT의 세 가지 형식으로 만듭니다.
두 채널 처리: 개별 음성 텍스트를 자동으로 감지하고 단일 타임라인에 병합합니다.
노이즈 감소: 전화 통신 오디오 또는 노이즈가 많은 녹음을 지웁니다(Skype 필터 기준).
음성 텍스트 사용자 지정(CRIS): 사용자 지정 음성 텍스트 변환 모델을 학습시켜 산업별 음성 텍스트를 만듭니다. 자세한 내용은 언어 모델 사용자 지정을 참조하세요.
화자 열거: 어떤 화자가 어떤 단어를 언제 말했는지 매핑하고 파악합니다. 단일 오디오 파일에서 16명의 화자를 감지할 수 있습니다.
화자 통계: 화자 음성 비율에 대한 통계를 제공합니다.
텍스트 콘텐츠 조정: 오디오 전사에서 명시적 텍스트를 검색합니다.
텍스트 기반 감정 감지: 음성 텍스트 분석을 통해 감지된 기쁨, 슬픔, 분노 및 두려움과 같은 감정입니다.
번역: 오디오 음성 텍스트를 다양한 언어로 번역합니다. 자세한 내용은 Azure AI Video Indexer 언어 지원을 참조하세요.
오디오 효과 감지: 알람 또는 사이렌, 개 짖는 소리, 군중 반응(환호, 박수, 야유), 총소리 또는 폭발, 웃음, 깨진 유리, 침묵 등 콘텐츠의 음성이 아닌 세그먼트에서 다음 오디오 효과를 감지합니다.

감지된 음향 이벤트는 자막 파일에 있습니다. Azure AI Video Indexer 웹 사이트에서 파일을 다운로드할 수 있습니다. 자세한 내용은 오디오 효과 감지를 참조하세요.

참고 항목

전체 이벤트 집합은 업로드 사전 설정에서 파일을 업로드할 때 고급 오디오 분석을 선택하는 경우에만 사용할 수 있습니다. 기본적으로 무음만 검색됩니다.

오디오 및 비디오 모델(다중 채널)

한 채널로 인덱싱하는 경우 해당 모델의 부분 결과가 제공됩니다.

키워드 추출: 음성 및 시각적 텍스트에서 키워드를 추출합니다.
명명된 엔터티 추출: NLP(자연어 처리)를 통해 음성 및 시각적 텍스트에서 브랜드, 위치 및 사람을 추출합니다.
토픽 유추: 다양한 키워드를 기반으로 하여 토픽을 추출합니다. 즉, ‘증권 거래소’, ‘월스트리트’ 키워드에서 ‘경제학’ 토픽을 생성합니다. 이 모델은 세 가지 온톨로지(IPTC, Wikipedia 및 Video Indexer 계층 구조 토픽 온톨로지)를 사용합니다. 이 모델은 Video Indexer 얼굴 인식 모델을 사용하여 비디오에서 인식되는 전사(음성 단어), OCR 콘텐츠(시각적 텍스트) 및 유명인을 사용합니다.
아티팩트: 각 모델에 대한 풍부한 아티팩트 세트("다음 수준의 세부 정보")를 추출합니다.
감정 분석: 음성 및 시각적 텍스트에서 긍정적, 부정적 및 중립적 감정을 식별합니다.

Azure AI Video Indexer를 시작하려면 어떻게 해야 하나요?

Azure AI Video Indexer를 시작하는 방법을 알아봅니다.

설정한 후에는 인사이트 사용을 시작하고 다른 방법 가이드를 확인하세요.

규정 준수, 개인 정보 보호 및 보안

참고 항목

2020년 6월 11일, Microsoft는 인권에 기반한 강력한 규정이 적용될 때까지 미국 경찰 당국에 얼굴 인식 기술을 판매하지 않겠다고 발표했습니다. 따라서 고객이 미국 경찰 당국에 의해 또는 미국 경찰 당국을 위해 이 서비스를 사용하거나 서비스 사용을 허용하는 경우 Azure AI 서비스에 포함된 얼굴 인식 기능(예: Face 또는 Video Indexer)를 사용하지 못할 수도 있습니다.

참고 항목

얼굴 식별, 사용자 지정 및 유명인 인식 기능 액세스는 책임 있는 AI 원칙을 지원하기 위해 자격 및 사용 기준에 따라 제한됩니다. 얼굴 식별, 사용자 지정 및 유명인 인식 기능은 Microsoft 관리 고객 및 파트너만 사용할 수 있습니다. 얼굴 인식 접수 양식을 사용하여 액세스를 적용합니다.

Azure AI Video Indexer 사용 시 적용 가능한 모든 법률을 준수해야 하며, 다른 사람의 권리를 침해하거나 다른 사람에게 해로울 수 있는 방식으로 Azure AI Video Indexer 또는 Azure 서비스를 사용할 수 없습니다.

비디오/이미지를 Azure AI Video Indexer에 업로드하기 전에 Azure AI Video Indexer 및 Azure에서 데이터의 사용, 처리 및 저장을 위해 법률에 따라 필요한 경우 비디오/이미지의 개인(있는 경우)의 모든 필요한 동의를 포함하여 비디오/이미지를 사용할 수 있는 모든 적절하고 법적 권한이 있어야 합니다. 일부 관할 지역에서는 생체 데이터와 같은 특정 범주의 데이터를 수집하고 온라인으로 처리하고 저장하는 데 대해 특별한 법적 요구 사항이 적용될 수 있습니다. 특별한 법적 요구 사항이 적용되는 모든 데이터의 처리 및 스토리지에 Azure AI Video Indexer 및 Azure를 사용하기 전에 사용이 귀하와 의도한 용도에 적용될 수 있는 모든 법적 요구 사항을 준수하는지 확인해야 합니다.

Azure AI Video Indexer의 규정 준수, 개인 정보 보호 및 보안에 대해 알아보려면 Microsoft 보안 센터에 방문하세요. Microsoft의 개인 정보 보호 의무, 데이터 삭제 방법을 비롯한 데이터 처리 및 보존 방식에 대한 자세한 내용은 Microsoft의 개인정보처리방침, Online Services 사용 약관("OST") 및 Data Processing 추록("DPA")을 검토하세요. Azure AI Video Indexer를 사용하면 OST, DPA 및 개인정보처리방침에 동의하게 됩니다.

다음을 통해 공유

Azure AI Video Indexer 개요

Azure AI Video Indexer를 사용하여 무엇을 수행할 수 있나요?

비디오/오디오 AI 기능

비디오 모델

오디오 모델

오디오 및 비디오 모델(다중 채널)

Azure AI Video Indexer를 시작하려면 어떻게 해야 하나요?

규정 준수, 개인 정보 보호 및 보안

피드백

추가 리소스