장면, 샷, 키 프레임 검색 인사이트 개요
장면, 샷, 키 프레임 검색
장면 검색은 시각적 신호에 따라 비디오에서 장면이 변경되는 시기를 감지합니다.
장면은 단일 이벤트를 묘사하고 관련된 일련의 샷으로 구성됩니다.
샷 은 인접한 프레임의 색 구성표에서 갑작스럽고 점진적인 전환과 같은 시각적 신호로 구별되는 일련의 프레임입니다. 샷의 메타데이터에는 시작 및 종료 시간뿐만 아니라 샷에 포함된 키 프레임 목록이 포함됩니다.
키 프레임은 샷을 가장 잘 나타내는 샷의 프레임입니다.
장면, 샷 및 키 프레임 검색 사용 사례
- 다양한 세분성에 따라 비디오 콘텐츠를 쉽게 찾아보고, 관리하고, 편집할 수 있습니다.
- 편집 샷 유형 검색을 사용하여 비디오를 클립, 예고편으로 편집하거나 특정 키 프레임 스타일을 검색할 때 사용합니다.
장면 검색
Azure AI Video Indexer는 시각 신호를 기반으로 비디오에서 장면이 변경되는 시기를 결정합니다. 장면은 단일 이벤트를 묘사하며 의미상 관련된 일련의 연속 샷으로 구성됩니다.
장면 썸네일은 기본 샷의 첫 번째 키 프레임입니다.
Azure AI Video Indexer는 연속 샷에서 색 일관성을 기준으로 비디오를 장면으로 분할하고 각 장면의 시작 및 종료 시간을 검색합니다.
비디오에는 3개 이상의 장면이 포함되어야 합니다.
샷 검색
Azure AI Video Indexer는 색 구성표의 갑작스럽고 점진적인 전환과 인접한 프레임의 다른 시각적 기능을 모두 감지하여 시각적 신호에 따라 비디오에서 샷이 변경되는 시기를 결정합니다. 샷의 메타데이터에는 시작 및 종료 시간과 해당 샷에 포함된 키 프레임 목록이 포함됩니다. 샷은 동시에 동일한 카메라에서 가져온 연속 프레임입니다.
참고 항목
전환의 일부인 프레임을 포함하는 샷 사이에 간격이 있을 수 있습니다. 이 프레임은 샷의 일부로 간주되지 않습니다.
키프레임 편집 샷 유형 검색
샷 유형은 각 샷의 첫 번째 키 프레임을 분석한 결과에 따라 결정됩니다. 샷은 첫 번째 키 프레임에 나타나는 얼굴의 배율, 크기 및 위치로 식별됩니다.
샷 크기 및 배율은 카메라와 프레임에 나타나는 얼굴 간 거리를 기준으로 결정됩니다. 이 속성을 사용하여 Azure AI Video Indexer는 다음 샷 유형을 검색합니다.
- 와이드: 사람의 전신을 표시합니다.
- 중간: 사람의 상반신 및 얼굴을 표시합니다.
- 클로즈업: 주로 사람의 얼굴을 표시합니다.
- 익스트림 클로즈업: 화면을 채우는 사람의 얼굴을 표시합니다.
샷 유형은 프레임 중심을 기준으로 주체 캐릭터의 위치에 따라 결정될 수도 있습니다. 이 속성은 Azure AI Video Indexer에서 다음 샷 유형을 정의합니다.
- 왼쪽 얼굴: 사람이 프레임의 왼쪽에 나타납니다.
- 가운데 얼굴: 사람이 프레임의 가운데 영역에 나타납니다.
- 오른쪽 얼굴: 사람이 프레임의 오른쪽에 나타납니다.
- 실외: 사람이 실외 설정에 나타납니다.
- 실내: 사람이 실내 설정에 나타납니다.
추가 특징:
- 2인 샷: 중간 크기의 두 사람 얼굴을 표시합니다.
- 여러 얼굴: 세 명 이상의 사람입니다.
웹 포털을 사용하여 인사이트 JSON 보기
비디오를 업로드하고 인덱싱한 후에는 웹 포털을 사용하여 JSON 형식으로 인사이트를 다운로드할 수 있습니다.
- 라이브러리 탭을 선택합니다.
- 작업할 미디어를 선택합니다.
- 다운로드 및 인사이트(JSON)를 선택합니다. JSON 파일이 새 브라우저 탭에서 열립니다.
- 예제 응답에 설명된 키 쌍을 찾습니다.
API 사용
예제 응답
"scenes": [
{
"id": 1,
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:09.1333333",
"start": "0:00:00",
"end": "0:00:09.1333333"
}
]
},
{
"id": 2,
"instances": [
{
"adjustedStart": "0:00:09.1333333",
"adjustedEnd": "0:00:10.8",
"start": "0:00:09.1333333",
"end": "0:00:10.8"
}
]
},
{
"id": 3,
"instances": [
{
"adjustedStart": "0:00:10.8",
"adjustedEnd": "0:00:26.9333333",
"start": "0:00:10.8",
"end": "0:00:26.9333333"
}
]
}...
{
"id": 31,
"instances": [
{
"adjustedStart": "0:18:45",
"adjustedEnd": "0:18:50.2",
"start": "0:18:45",
"end": "0:18:50.2"
}
]
}
],
"shots": [
{
"id": 1,
"tags": [
"Wide",
"Medium"
],
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
"adjustedStart": "0:00:00.1666667",
"adjustedEnd": "0:00:00.2",
"start": "0:00:00.1666667",
"end": "0:00:00.2"
}
]
},
{
"id": 2,
"instances": [
{
"thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
"adjustedStart": "0:00:00.2333333",
"adjustedEnd": "0:00:00.2666667",
"start": "0:00:00.2333333",
"end": "0:00:00.2666667"
}
]
}
],
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:01.9333333",
"start": "0:00:00",
"end": "0:00:01.9333333"
}
]
},
{
"id": 2,
"tags": [
"Medium"
],
"keyFrames": [
{
"id": 3,
"instances": [
{
"thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
"adjustedStart": "0:00:02",
"adjustedEnd": "0:00:02.0333333",
"start": "0:00:02",
"end": "0:00:02.0333333"
}
]
}
],
"instances": [
{
"adjustedStart": "0:00:01.9333333",
"adjustedEnd": "0:00:02.9666667",
"start": "0:00:01.9333333",
"end": "0:00:02.9666667"
}
]
}...
API를 사용하여 키 프레임 다운로드
각 키 프레임을 다운로드하려면 미리 보기 가져오기 요청과 함께 키 프레임 ID를 사용합니다.
Warning
프로덕션 목적으로 아티팩트 폴더의 데이터를 직접 사용하지 않는 것이 좋습니다. 아티팩트는 인덱싱 프로세스의 중간 출력입니다. 기본적으로 비디오를 분석하는 다양한 AI 엔진의 원시 출력입니다. 아티팩트 스키마는 시간이 지남에 따라 변경될 수 있습니다.
Important
모든 VI 기능에 대한 투명도 참고 개요를 읽는 것이 중요합니다. 각 인사이트에는 자체의 투명성 메모도 있습니다.
장면, 샷 및 키 프레임 검색 노트
- 탐지기는 그 안에 샷과 장면이 있는 미디어 파일에서 가장 잘 작동합니다.
- 동영상이 이동하지 않는 하나의 카메라로 촬영되는 경우 샷 구분이 제대로 작동하지 않으며 키 프레임이 대표적이지 않을 수 있습니다.
- 프레임의 흐림 수준을 고려하여 키 프레임을 선택합니다. 예를 들어 대부분의 샷이 흐릿한 경우(예: 동작) 키 프레임이 흐릿할 수도 있습니다.
- 시각적 품질이 낮은 비디오는 좋지 못한 결과를 생성합니다.
- 각 샷/장면/키 프레임의 시간이 1초 미만일 수 있습니다.
장면, 샷 및 키 프레임 구성 요소
정의된 구성 요소가 없습니다.