Azure Media Services を使用してビデオファイルとオーディオファイルを分析する

[アーティクル]
03/02/2023

警告

Azure Media Services は、2024 年 6 月 30 日に廃止されます。詳細については、AMS 提供終了ガイドを参照してください。

大事な

Microsoft の責任ある AI 標準概説されているように、Microsoft は AI システムに関して公平性、プライバシー、セキュリティ、透明性に取り組んでいます。これらの標準に合わせて、Azure Media Services は、2023 年 9 月 14 日に Video Analyzer プリセットを廃止します。このプリセットを使用すると、現在、ビデオファイルから複数のビデオとオーディオの分析情報を抽出できます。お客様は、azure Video Indexerによって提供されるより高度な機能セット使用して、現在のワークフローを置き換えることができます。

Media Services を使用すると、オーディオとビデオアナライザーのプリセットを使用して、ビデオファイルとオーディオファイルから分析情報を抽出できます。この記事では、分析情報の抽出に使用されるアナライザープリセットについて説明します。ビデオからさらに詳細な分析情報が必要な場合は、Azure Video Indexer サービスを使用します。 Video Indexer と Media Services アナライザープリセットを使用するタイミングを理解するには、比較ドキュメントを確認してください。

Audio Analyzer プリセットには、基本モードと標準モードの 2 つのモードがあります。次の表の相違点の説明を参照してください。

Media Services v3 プリセットを使用してコンテンツを分析するには、Transform を作成し、次のいずれかのプリセットを使用するジョブを送信します。VideoAnalyzerPreset または AudioAnalyzerPresetをします。

手記

ストレージアカウントにパブリックネットワークアクセスがない場合、AudioAnalyzerPreset はサポートされません。

コンプライアンス、プライバシー、セキュリティ

Video Indexer の使用に適用されるすべての法律を遵守する必要があります。また、Video Indexer またはその他の Azure サービスを、他のユーザーの権利を侵害したり、他のユーザーに害を及ぼす可能性のある方法で使用することはできません。生体認証データを含むビデオを処理および保存するために Video Indexer サービスにアップロードする前に、ビデオ内の個人からのすべての適切な同意を含むすべての適切な権利を持っている必要があります。 Video Indexer のコンプライアンス、プライバシー、セキュリティについて学習するには、Azure Cognitive Services の使用条件。 Microsoft のプライバシーに関する義務とデータの取り扱いについては、Microsoft のプライバシーに関する声明の、オンラインサービス条件 ("OST") およびデータ処理補遺 ("DPA") を確認してください。 OST では、データの保持、削除、破棄など、より多くのプライバシー情報を入手できます。 Video Indexer を使用すると、Cognitive Services の使用条件、OST、DPA、およびプライバシーに関する声明に拘束されることに同意したものと見なされます。

組み込みのプリセット

Media Services では現在、次の組み込みのアナライザープリセットがサポートされています。

プリセット名の	シナリオ/モード	の詳細
AudioAnalyzerPreset	オーディオ標準モードの分析	プリセットは、音声文字起こしを含む、定義済みの AI ベースの分析操作のセットを適用します。現在、プリセットは、1 つの言語で音声を含む 1 つのオーディオトラックでコンテンツの処理をサポートしています。 "language tag-region" の BCP-47 形式を使用して、入力内のオーディオペイロードの言語を指定します。使用可能な言語コードについては、以下のサポートされている言語の一覧を参照してください。自動言語検出では、検出された最初の言語が選択され、ファイル全体に対して選択した言語が設定されていない場合、または null に設定され続けます。現在、自動言語検出機能では、英語、中国語、フランス語、ドイツ語、イタリア語、日本語、スペイン語、ロシア語、ポルトガル語 (ブラジル) がサポートされています。最初の言語が検出された後の言語間の動的な切り替えはサポートされていません。自動言語検出機能は、明確に識別可能な音声によるオーディオ録音に最適です。言語の自動検出で言語が見つからない場合、文字起こしは英語にフォールバックします。
AudioAnalyzerPreset	オーディオ基本モードの分析	このプリセットモードでは、音声テキスト変換の文字起こしと、VTT 字幕/キャプションファイルの生成が実行されます。このモードの出力には、キーワード、文字起こし、タイミング情報のみを含む Insights JSON ファイルが含まれます。このモードでは、自動言語検出とスピーカーのダイアライズは含まれません。サポートされている言語の一覧は、上記の標準モードと同じです。
VideoAnalyzerPreset	オーディオとビデオの分析	オーディオとビデオの両方から分析情報 (リッチメタデータ) を抽出し、JSON 形式のファイルを出力します。ビデオファイルの処理中にオーディオ分析情報のみを抽出するかどうかを指定できます。
FaceDetectorPreset	ビデオに存在する顔の検出	ビデオを分析して存在するすべての顔を検出するときに使用する設定について説明します。

手記

ストレージアカウントにパブリックネットワークアクセスがない場合、AudioAnalyzerPreset はサポートされません。

サポートされている言語

アラビア語 ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' および 'ar-SY')
ポルトガル語 (ブラジル)pt-BR')
中国語 ('zh-CN')
デンマーク語 ('da-DK')
英語 ('en-US', 'en-GB' および 'en-AU')
フィンランド語 ('fi-FI')
フランス語 ('fr-FR' および 'fr-CA')
ドイツ語 ('de-DE')
ヘブライ語 (he-IL)
ヒンディー語 ('hi-IN')、韓国語 ('ko-KR')
イタリア語 ('it-IT')
日本語 ('ja-JP')
ノルウェー語 ('nb-NO')
ペルシア語 ('fa-IR')
ポルトガルポルトガル語 ('pt-PT')
ロシア語 ('ru-RU')
スペイン語 ('es-ES' および 'es-MX')
スウェーデン語 ('sv-SE')
タイ語 ('th-TH')
トルコ語 ('tr-TR')

手記

ストレージアカウントにパブリックネットワークアクセスがない場合、AudioAnalyzerPreset はサポートされません。

AudioAnalyzerPreset 標準モード

プリセットを使用すると、オーディオまたはビデオファイルから複数のオーディオ分析情報を抽出できます。

出力には、オーディオトランスクリプト用の JSON ファイル (すべての分析情報を含む) と VTT ファイルが含まれます。このプリセットは、BCP47 文字列の形式で入力ファイルの言語を指定するプロパティを受け入れます。オーディオの分析情報には、次のものが含まれます。

オーディオ文字起こし: タイムスタンプを持つ話し言葉のトランスクリプト。複数の言語がサポートされています。
キーワード: オーディオ文字起こしから抽出されるキーワード。

AudioAnalyzerPreset 基本モード

プリセットを使用すると、オーディオまたはビデオファイルから複数のオーディオ分析情報を抽出できます。

出力には、オーディオトランスクリプト用の JSON ファイルと VTT ファイルが含まれます。このプリセットは、BCP47 文字列の形式で入力ファイルの言語を指定するプロパティを受け入れます。出力には次のものが含まれます。

オーディオ文字起こし: タイムスタンプを持つ話し言葉のトランスクリプト。複数の言語がサポートされていますが、自動言語検出と話者のダイアライズは含まれません。
キーワード: オーディオ文字起こしから抽出されるキーワード。

VideoAnalyzerPreset

プリセットを使用すると、ビデオファイルから複数のオーディオとビデオの分析情報を抽出できます。出力には、JSON ファイル (すべての分析情報を含む)、ビデオトランスクリプト用の VTT ファイル、サムネイルのコレクションが含まれます。このプリセットでは、プロパティとして BCP47 文字列 (ビデオの言語を表す) も受け入れます。ビデオの分析情報には、上記のすべてのオーディオ分析情報と、次の追加項目が含まれます。

顔追跡: 顔がビデオに存在する時間。各顔には、顔 ID と、対応するサムネイルのコレクションがあります。
ビジュアルテキスト: 光学式文字認識によって検出されたテキスト。テキストにはタイムスタンプが設定され、(音声トランスクリプトに加えて) キーワードを抽出するためにも使用されます。
キーフレーム: ビデオから抽出されたキーフレームのコレクション。
ビジュアルコンテンツモデレーション: 成人またはわいせつとしてフラグが設定されたビデオの一部。
注釈: 定義済みのオブジェクトモデルに基づいてビデオに注釈を付ける結果

insights.json 要素

出力には、ビデオまたはオーディオで見つかったすべての分析情報を含む JSON ファイル (insights.json) が含まれます。 JSON には、次の要素を含めることができます。

写し

名前	形容
身分証明書	行 ID。
テキスト	トランスクリプト自体。
言語	トランスクリプト言語。各行に異なる言語を使用できるトランスクリプトをサポートすることを目的としています。
インスタンス	この行が表示された時間範囲の一覧。インスタンスがトランスクリプトの場合、インスタンスは 1 つだけになります。

例：

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

名前	形容
身分証明書	OCR 行 ID。
テキスト	OCR テキスト。
信任	認識の信頼度。
言語	OCR 言語。
インスタンス	この OCR が表示された時間範囲の一覧 (同じ OCR が複数回出現する可能性があります)。

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

顔

名前	形容
身分証明書	顔 ID。
名前	顔の名前。 "Unknown #0"、識別された著名人、または顧客のトレーニングを受けたユーザーを指定できます。
信任	顔識別の信頼度。
形容	著名人の説明。
thumbnailId	その顔のサムネイルの ID。
knownPersonId	内部 ID (既知の人物の場合)。
referenceId	Bing ID (Bing著名人の場合)。
referenceType	現在Bing。
タイトル	タイトル (著名人の場合は "Microsoft の CEO" など)。
imageUrl	著名人の場合は、画像の URL。
インスタンス	指定した時間範囲に顔が表示されたインスタンス。各インスタンスには thumbnailsId もあります。

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

ショット

名前	形容
身分証明書	ショット ID。
keyFrames	ショット内のキーフレームの一覧 (それぞれに ID とインスタンスの時間範囲の一覧があります)。キーフレームインスタンスには、keyFrame のサムネイル ID を持つ thumbnailId フィールドがあります。
インスタンス	このショットの時間範囲の一覧 (ショットにはインスタンスが 1 つだけ含まれます)。

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

統計学

名前	形容
CorrespondenceCount	ビデオ内の対応の数。
WordCount	話者ごとの単語数。
SpeakerNumberOfFragments	スピーカーがビデオに含めるフラグメントの量。
SpeakerLongestMonolog	スピーカーの最長のモノローグ。話者がモノローグ内に無音を持っている場合は、それが含まれます。モノログの先頭と末尾の無音が削除されます。
SpeakerTalkToListenRatio	計算は、話者のモノローグに費やされた時間 (間に無音なし) をビデオの合計時間で割った値に基づいています。時刻は、小数点 3 番目に丸められます。

ラベル

名前	形容
身分証明書	ラベル ID。
名前	ラベル名 (たとえば、"Computer"、"TV")。
言語	ラベル名の言語 (翻訳時)。 BCP-47
インスタンス	このラベルが表示された時間範囲の一覧 (1 つのラベルが複数回表示される場合があります)。各インスタンスには信頼度フィールドがあります。

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

キーワード

名前	形容
身分証明書	キーワード ID。
テキスト	キーワードテキスト。
信任	キーワードの認識の信頼度。
言語	キーワード言語 (翻訳時)。
インスタンス	このキーワードが出現した時間範囲の一覧 (1 つのキーワードが複数回出現する可能性があります)。

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

visualContentModeration ブロックには、Video Indexer が成人向けコンテンツを含む可能性がある時間範囲が含まれています。 visualContentModeration が空の場合、識別された成人用コンテンツはありません。

成人向けまたはわいせつなコンテンツが含まれていることが判明したビデオは、プライベートビューでのみ使用できます。ユーザーは、コンテンツの人間によるレビューの要求を送信できます。その場合、IsAdult 属性には人間によるレビューの結果が含まれます。

名前	形容
身分証明書	ビジュアルコンテンツモデレーション ID。
adultScore	成人スコア (コンテンツモデレーターから)。
racyScore	わいせつなスコア (コンテンツモデレーションから)。
インスタンス	このビジュアルコンテンツモデレーションが表示された時間範囲の一覧。

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

ヘルプとサポートを受ける

Media Services に質問がある場合は、次のいずれかの方法で更新プログラムに従ってください。

Q & A
Stack Overflow。 azure-media-servicesで質問にタグを付け.
@MSFTAzureMedia または @AzureSupport を使用してサポートを要求します。
Azure portal からサポートチケットを開きます。

次の方法で共有

Azure Media Services を使用してビデオファイルとオーディオファイルを分析する

コンプライアンス、プライバシー、セキュリティ

組み込みのプリセット

サポートされている言語

AudioAnalyzerPreset 標準モード

AudioAnalyzerPreset 基本モード

VideoAnalyzerPreset

insights.json 要素

写し

ocr

顔

ショット

統計学

ラベル

キーワード

visualContentModeration

ヘルプとサポートを受ける

その他のリソース

次の方法で共有

Azure Media Services を使用してビデオ ファイルとオーディオ ファイルを分析する

コンプライアンス、プライバシー、セキュリティ

組み込みのプリセット

サポートされている言語

AudioAnalyzerPreset 標準モード

AudioAnalyzerPreset 基本モード

VideoAnalyzerPreset

insights.json 要素

写し

ocr

顔

ショット

統計学

ラベル

キーワード

visualContentModeration

ヘルプとサポートを受ける

その他のリソース

Azure Media Services を使用してビデオファイルとオーディオファイルを分析する