다음을 통해 공유


Azure Media Services를 사용하여 비디오 및 오디오 파일 분석

Media Services 로고 v3


경고

Azure Media Services는 2024년 6월 30일에 사용 중지됩니다. 자세한 내용은 AMS 사용 중지 가이드참조하세요.

중요하다

Microsoft의 책임 있는 AI 표준 간략하게 설명한 대로 Microsoft는 AI 시스템과 관련하여 공정성, 개인 정보 보호, 보안 및 투명성을 위해 최선을 다하고 있습니다. 이러한 표준에 부합하기 위해 Azure Media Services는 2023년 9월 14일Video Analyzer 사전 설정 사용 중지합니다. 현재 이 사전 설정을 사용하면 비디오 파일에서 여러 비디오 및 오디오 인사이트를 추출할 수 있습니다. 고객은 Azure Video Indexer제공하는 고급 기능 집합을 사용하여 현재 워크플로를 바꿀 수 있습니다.

Media Services를 사용하면 오디오 및 비디오 분석기 사전 설정을 사용하여 비디오 및 오디오 파일에서 인사이트를 추출할 수 있습니다. 이 문서에서는 인사이트를 추출하는 데 사용되는 분석기 사전 설정을 설명합니다. 비디오에서 더 자세한 인사이트를 원하는 경우 Azure Video Indexer 서비스사용합니다. Video Indexer와 Media Services 분석기 사전 설정을 사용하는 시기를 이해하려면 비교 문서확인하세요.

Audio Analyzer 사전 설정에는 기본 및 표준의 두 가지 모드가 있습니다. 아래 표의 차이점에 대한 설명을 참조하세요.

Media Services v3 사전 설정을 사용하여 콘텐츠를 분석하려면 변환 만들고 VideoAnalyzerPreset 또는 AudioAnalyzerPreset중 하나를 사용하는 작업 제출합니다.

메모

스토리지 계정에 공용 네트워크 액세스 권한이 없는 경우 AudioAnalyzerPreset이 지원되지 않습니다.

규정 준수, 개인 정보 및 보안

Video Indexer 사용에 관한 모든 관련 법률을 준수해야 하며, 다른 사람의 권리를 침해하거나 다른 사람에게 해로울 수 있는 방식으로 Video Indexer 또는 기타 Azure 서비스를 사용할 수 없습니다. 생체 인식 데이터를 포함한 비디오를 비디오 인덱서 서비스에 업로드하여 처리 및 저장하기 전에 비디오의 개인으로부터 적절한 모든 동의를 포함하여 모든 적절한 권한이 있어야 합니다. Video Indexer의 규정 준수, 개인 정보 보호 및 보안에 대해 알아보려면 Azure Cognitive Services 약관. Microsoft의 개인 정보 보호 의무 및 데이터 처리에 대해서는 Microsoft의 개인정보처리방침, Online Services 약관("OST") 및 데이터 처리 부록("DPA")를 검토하세요. 데이터 보존, 삭제/소멸을 포함한 자세한 개인 정보 정보는 OST에서 확인할 수 있습니다. Video Indexer를 사용하면 Cognitive Services 약관, OST, DPA 및 개인정보처리방침에 구속되는 데 동의합니다.

기본 제공 사전 설정

Media Services는 현재 다음과 같은 기본 제공 분석기 사전 설정을 지원합니다.

사전 설정 이름 시나리오/모드 세부 정보
audioAnalyzerPreset 오디오 표준 모드 분석 사전 설정은 음성 전사를 포함하여 미리 정의된 AI 기반 분석 작업 집합을 적용합니다. 현재 사전 설정은 단일 언어로 된 음성을 포함하는 단일 오디오 트랙으로 콘텐츠를 처리할 수 있도록 지원합니다. BCP-47 형식의 'language tag-region'을 사용하여 입력에서 오디오 페이로드의 언어를 지정합니다. 사용 가능한 언어 코드는 아래 지원되는 언어 목록을 참조하세요. 자동 언어 검색은 검색된 첫 번째 언어를 선택하고, 설정되지 않았거나 null로 설정된 경우 전체 파일에 대해 선택한 언어를 계속 사용합니다. 자동 언어 검색 기능은 현재 영어, 중국어, 프랑스어, 독일어, 이탈리아어, 일본어, 스페인어, 러시아어 및 브라질 포르투갈어를 지원합니다. 첫 번째 언어가 검색된 후에는 언어 간 동적 전환을 지원하지 않습니다. 자동 언어 감지 기능은 명확하게 식별 가능한 음성을 사용하여 오디오 녹음에 가장 적합합니다. 자동 언어 검색에서 언어를 찾지 못하면 전사가 영어로 대체됩니다.
audioAnalyzerPreset 오디오 기본 모드 분석 이 사전 설정 모드는 음성 텍스트 변환 전사 및 VTT 자막/캡션 파일 생성을 수행합니다. 이 모드의 출력에는 키워드, 전사 및 타이밍 정보만 포함하는 Insights JSON 파일이 포함됩니다. 자동 언어 감지 및 화자 일기는 이 모드에 포함되지 않습니다. 지원되는 언어 목록은 위의 표준 모드와 동일합니다.
VideoAnalyzerPreset 오디오 및 비디오 분석 오디오 및 비디오 모두에서 인사이트(풍부한 메타데이터)를 추출하고 JSON 형식 파일을 출력합니다. 비디오 파일을 처리할 때만 오디오 인사이트를 추출할지 여부를 지정할 수 있습니다.
faceDetectorPreset 비디오에 있는 얼굴 감지 비디오를 분석하여 존재하는 모든 얼굴을 감지할 때 사용할 설정에 대해 설명합니다.

메모

스토리지 계정에 공용 네트워크 액세스 권한이 없는 경우 AudioAnalyzerPreset이 지원되지 않습니다.

지원되는 언어

  • 아랍어 ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' 및 'ar-SY')
  • 브라질 포르투갈어('pt-BR')
  • 중국어('zh-CN')
  • 덴마크어('da-DK')
  • 영어('en-US', 'en-GB' 및 'en-AU')
  • 핀란드어('fi-FI')
  • 프랑스어('fr-FR' 및 'fr-CA')
  • 독일어('de-DE')
  • 히브리어(he-IL)
  • 힌디어('hi-IN'), 한국어('ko-KR')
  • 이탈리아어('it-IT')
  • 일본어('ja-JP')
  • 노르웨이어('nb-NO')
  • 페르시아어('fa-IR')
  • 포르투갈 포르투갈어('pt-PT')
  • 러시아어('ru-RU')
  • 스페인어('es-ES' 및 'es-MX')
  • 스웨덴어('sv-SE')
  • 태국어('th-TH')
  • 터키어('tr-TR')

메모

스토리지 계정에 공용 네트워크 액세스 권한이 없는 경우 AudioAnalyzerPreset이 지원되지 않습니다.

AudioAnalyzerPreset 표준 모드

사전 설정을 사용하면 오디오 또는 비디오 파일에서 여러 오디오 인사이트를 추출할 수 있습니다.

출력에는 오디오 대본에 대한 JSON 파일(모든 인사이트 포함) 및 VTT 파일이 포함됩니다. 이 사전 설정은 입력 파일의 언어를 BCP47 문자열 형식으로 지정하는 속성을 허용합니다. 오디오 인사이트는 다음과 같습니다.

  • 오디오 전사: 타임스탬프가 있는 음성 단어의 대본입니다. 여러 언어가 지원됩니다.
  • 키워드: 오디오 전사에서 추출된 키워드입니다.

AudioAnalyzerPreset 기본 모드

사전 설정을 사용하면 오디오 또는 비디오 파일에서 여러 오디오 인사이트를 추출할 수 있습니다.

출력에는 오디오 대본에 대한 JSON 파일 및 VTT 파일이 포함됩니다. 이 사전 설정은 입력 파일의 언어를 BCP47 문자열 형식으로 지정하는 속성을 허용합니다. 출력에는 다음이 포함됩니다.

  • 오디오 전사: 타임스탬프가 있는 음성 단어의 대본입니다. 여러 언어가 지원되지만 자동 언어 감지 및 화자 일기는 포함되지 않습니다.
  • 키워드: 오디오 전사에서 추출된 키워드입니다.

VideoAnalyzerPreset

사전 설정을 사용하면 비디오 파일에서 여러 오디오 및 비디오 인사이트를 추출할 수 있습니다. 출력에는 JSON 파일(모든 인사이트 포함), 비디오 대본에 대한 VTT 파일 및 썸네일 컬렉션이 포함됩니다. 또한 이 사전 설정은 BCP47 문자열(비디오의 언어를 나타낸)을 속성으로 허용합니다. 비디오 인사이트에는 위에서 언급한 모든 오디오 인사이트와 다음과 같은 추가 항목이 포함됩니다.

  • 얼굴 추적: 비디오에 얼굴이 있는 시간입니다. 각 얼굴에는 얼굴 ID와 해당 썸네일 컬렉션이 있습니다.
  • 시각적 텍스트: 광학 문자 인식을 통해 검색되는 텍스트입니다. 텍스트는 타임스탬프를 지정하고 오디오 대본 외에도 키워드를 추출하는 데도 사용됩니다.
  • 키 프레임: 비디오에서 추출된 키 프레임의 컬렉션입니다.
  • 시각적 콘텐츠 조정: 본질적으로 성인 또는 외설로 플래그가 지정된 비디오의 부분입니다.
  • 주석: 미리 정의된 개체 모델을 기반으로 비디오에 주석을 추가한 결과입니다.

요소 insights.json

출력에는 비디오 또는 오디오에 있는 모든 인사이트를 포함하는 JSON 파일(insights.json)이 포함됩니다. JSON에는 다음 요소가 포함될 수 있습니다.

사본

이름 묘사
아이디 줄 ID입니다.
문자 메시지 대본 자체.
언어 대본 언어입니다. 각 줄에 다른 언어가 있을 수 있는 대본을 지원하기 위한 것입니다.
인스턴스 이 줄이 나타난 시간 범위 목록입니다. 인스턴스가 기록인 경우 인스턴스가 하나만 있습니다.

본보기:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

이름 묘사
아이디 OCR 줄 ID입니다.
문자 메시지 OCR 텍스트입니다.
자신 인식 신뢰도입니다.
언어 OCR 언어입니다.
인스턴스 이 OCR이 나타난 시간 범위 목록입니다(동일한 OCR이 여러 번 나타날 수 있습니다).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

얼굴

이름 묘사
아이디 얼굴 ID입니다.
이름 얼굴 이름입니다. '알 수 없음 #0', 식별된 유명인 또는 고객 교육을 받은 사람일 수 있습니다.
자신 얼굴 식별 신뢰도입니다.
묘사 유명 인사에 대한 설명입니다.
thumbnailId 해당 얼굴의 썸네일 ID입니다.
knownPersonId 내부 ID(알려진 사람인 경우)입니다.
referenceId Bing ID(Bing 유명인 경우)입니다.
referenceType 현재 Bing만 있습니다.
타이틀 제목(유명인인 경우(예: "Microsoft의 CEO")
imageUrl 유명인 경우 이미지 URL입니다.
인스턴스 지정된 시간 범위에 얼굴이 나타난 인스턴스입니다. 각 인스턴스에는 thumbnailsId도 있습니다.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

촬영

이름 묘사
아이디 샷 ID입니다.
keyFrames 샷 내의 키 프레임 목록입니다(각 프레임에는 ID와 인스턴스 시간 범위 목록이 포함됨). 키 프레임 인스턴스에는 keyFrame의 썸네일 ID가 있는 thumbnailId 필드가 있습니다.
인스턴스 이 샷의 시간 범위 목록입니다(샷에는 인스턴스가 하나뿐임).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

통계

이름 묘사
CorrespondenceCount 비디오의 서신 수입니다.
WordCount 화자당 단어 수입니다.
SpeakerNumberOfFragments 발표자가 비디오에 가지고 있는 조각의 양입니다.
SpeakerLongestMonolog 화자의 가장 긴 모노로그입니다. 화자가 모노로그 내부에 침묵이 있는 경우 포함됩니다. 모노로그의 시작과 끝에 침묵이 제거됩니다.
SpeakerTalkToListenRatio 이 계산은 화자의 모노로그에 소요된 시간을 비디오의 총 시간으로 나눈 시간(그 사이에 침묵 없이)을 기반으로 합니다. 시간은 세 번째 소수점까지 반올림됩니다.

레이블

이름 묘사
아이디 레이블 ID입니다.
이름 레이블 이름(예: 'Computer', 'TV')입니다.
언어 레이블 이름 언어(번역 시)입니다. BCP-47
인스턴스 이 레이블이 나타난 시간 범위 목록입니다(레이블은 여러 번 나타날 수 있습니다). 각 인스턴스에는 신뢰도 필드가 있습니다.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

키워드

이름 묘사
아이디 키워드 ID입니다.
문자 메시지 키워드 텍스트입니다.
자신 키워드의 인식 신뢰도입니다.
언어 키워드 언어(번역 시)입니다.
인스턴스 이 키워드가 나타난 시간 범위 목록입니다(키워드는 여러 번 나타날 수 있습니다).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

visualContentModeration 블록에는 Video Indexer에 성인 콘텐츠가 있을 수 있는 시간 범위가 포함되어 있습니다. visualContentModeration이 비어 있으면 식별된 성인 콘텐츠가 없습니다.

성인 또는 외설 콘텐츠가 포함된 것으로 확인된 비디오는 비공개 보기로만 사용할 수 있습니다. 사용자는 콘텐츠에 대한 사용자 검토 요청을 제출할 수 있습니다. 이 경우 IsAdult 특성에 사용자 검토 결과가 포함됩니다.

이름 묘사
아이디 시각적 콘텐츠 조정 ID입니다.
adultScore 성인 점수(콘텐츠 중재자)입니다.
racyScore 콘텐츠 조정에서의 외설 점수입니다.
인스턴스 이 시각적 콘텐츠 조정이 나타난 시간 범위 목록입니다.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

도움말 및 지원 받기

다음 방법 중 하나로 Media Services에 질문하거나 업데이트를 따를 수 있습니다.

  • Q & A
  • 스택 오버플로. azure-media-services질문에 태그를 추가합니다.
  • @MSFTAzureMedia 또는 @AzureSupport 사용하여 지원을 요청합니다.
  • Azure Portal을 통해 지원 티켓을 엽니다.