次の方法で共有


Azure Media Services を使用してビデオ ファイルとオーディオ ファイルを分析する

Media Services ロゴ v3


警告

Azure Media Services は、2024 年 6 月 30 日に廃止されます。 詳細については、AMS 提供終了ガイドを参照してください。

大事な

Microsoft の 責任ある AI 標準 概説されているように、Microsoft は AI システムに関して公平性、プライバシー、セキュリティ、透明性に取り組んでいます。 これらの標準に合わせて、Azure Media Services は、2023 年 9 月 14 日に Video Analyzer プリセット を廃止します。 このプリセットを使用すると、現在、ビデオ ファイルから複数のビデオとオーディオの分析情報を抽出できます。 お客様は、azure Video Indexerによって提供されるより高度な機能セット 使用して、現在のワークフローを置き換えることができます。

Media Services を使用すると、オーディオとビデオ アナライザーのプリセットを使用して、ビデオファイルとオーディオ ファイルから分析情報を抽出できます。 この記事では、分析情報の抽出に使用されるアナライザー プリセットについて説明します。 ビデオからさらに詳細な分析情報が必要な場合は、Azure Video Indexer サービスを使用します。 Video Indexer と Media Services アナライザープリセットを使用するタイミングを理解するには、比較ドキュメントを確認してください。

Audio Analyzer プリセットには、基本モードと標準モードの 2 つのモードがあります。 次の表の相違点の説明を参照してください。

Media Services v3 プリセットを使用してコンテンツを分析するには、Transform を作成し、次のいずれかのプリセットを使用する ジョブ を送信します。VideoAnalyzerPreset または AudioAnalyzerPresetを します。

手記

ストレージ アカウントにパブリック ネットワーク アクセスがない場合、AudioAnalyzerPreset はサポートされません。

コンプライアンス、プライバシー、セキュリティ

Video Indexer の使用に適用されるすべての法律を遵守する必要があります。また、Video Indexer またはその他の Azure サービスを、他のユーザーの権利を侵害したり、他のユーザーに害を及ぼす可能性のある方法で使用することはできません。 生体認証データを含むビデオを処理および保存するために Video Indexer サービスにアップロードする前に、ビデオ内の個人からのすべての適切な同意を含むすべての適切な権利を持っている必要があります。 Video Indexer のコンプライアンス、プライバシー、セキュリティについて学習するには、Azure Cognitive Services の使用条件。 Microsoft のプライバシーに関する義務とデータの取り扱いについては、Microsoft の プライバシーに関する声明のオンライン サービス条件 ("OST") および データ処理補遺 ("DPA") を確認してください。 OST では、データの保持、削除、破棄など、より多くのプライバシー情報を入手できます。 Video Indexer を使用すると、Cognitive Services の使用条件、OST、DPA、およびプライバシーに関する声明に拘束されることに同意したものと見なされます。

組み込みのプリセット

Media Services では現在、次の組み込みのアナライザー プリセットがサポートされています。

プリセット名の シナリオ/モード の詳細
AudioAnalyzerPreset オーディオ標準モードの分析 プリセットは、音声文字起こしを含む、定義済みの AI ベースの分析操作のセットを適用します。 現在、プリセットは、1 つの言語で音声を含む 1 つのオーディオ トラックでコンテンツの処理をサポートしています。 "language tag-region" の BCP-47 形式を使用して、入力内のオーディオ ペイロードの言語を指定します。 使用可能な言語コードについては、以下のサポートされている言語の一覧を参照してください。 自動言語検出では、検出された最初の言語が選択され、ファイル全体に対して選択した言語が設定されていない場合、または null に設定され続けます。 現在、自動言語検出機能では、英語、中国語、フランス語、ドイツ語、イタリア語、日本語、スペイン語、ロシア語、ポルトガル語 (ブラジル) がサポートされています。 最初の言語が検出された後の言語間の動的な切り替えはサポートされていません。 自動言語検出機能は、明確に識別可能な音声によるオーディオ録音に最適です。 言語の自動検出で言語が見つからない場合、文字起こしは英語にフォールバックします。
AudioAnalyzerPreset オーディオ基本モードの分析 このプリセット モードでは、音声テキスト変換の文字起こしと、VTT 字幕/キャプション ファイルの生成が実行されます。 このモードの出力には、キーワード、文字起こし、タイミング情報のみを含む Insights JSON ファイルが含まれます。 このモードでは、自動言語検出とスピーカーのダイアライズは含まれません。 サポートされている言語の一覧は、上記の標準モードと同じです。
VideoAnalyzerPreset オーディオとビデオの分析 オーディオとビデオの両方から分析情報 (リッチ メタデータ) を抽出し、JSON 形式のファイルを出力します。 ビデオ ファイルの処理中にオーディオ分析情報のみを抽出するかどうかを指定できます。
FaceDetectorPreset ビデオに存在する顔の検出 ビデオを分析して存在するすべての顔を検出するときに使用する設定について説明します。

手記

ストレージ アカウントにパブリック ネットワーク アクセスがない場合、AudioAnalyzerPreset はサポートされません。

サポートされている言語

  • アラビア語 ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' および 'ar-SY')
  • ポルトガル語 (ブラジル)pt-BR')
  • 中国語 ('zh-CN')
  • デンマーク語 ('da-DK')
  • 英語 ('en-US', 'en-GB' および 'en-AU')
  • フィンランド語 ('fi-FI')
  • フランス語 ('fr-FR' および 'fr-CA')
  • ドイツ語 ('de-DE')
  • ヘブライ語 (he-IL)
  • ヒンディー語 ('hi-IN')、韓国語 ('ko-KR')
  • イタリア語 ('it-IT')
  • 日本語 ('ja-JP')
  • ノルウェー語 ('nb-NO')
  • ペルシア語 ('fa-IR')
  • ポルトガル ポルトガル語 ('pt-PT')
  • ロシア語 ('ru-RU')
  • スペイン語 ('es-ES' および 'es-MX')
  • スウェーデン語 ('sv-SE')
  • タイ語 ('th-TH')
  • トルコ語 ('tr-TR')

手記

ストレージ アカウントにパブリック ネットワーク アクセスがない場合、AudioAnalyzerPreset はサポートされません。

AudioAnalyzerPreset 標準モード

プリセットを使用すると、オーディオまたはビデオ ファイルから複数のオーディオ分析情報を抽出できます。

出力には、オーディオ トランスクリプト用の JSON ファイル (すべての分析情報を含む) と VTT ファイルが含まれます。 このプリセットは、BCP47 文字列の形式で入力ファイルの言語を指定するプロパティを受け入れます。 オーディオの分析情報には、次のものが含まれます。

  • オーディオ文字起こし: タイムスタンプを持つ話し言葉のトランスクリプト。 複数の言語がサポートされています。
  • キーワード: オーディオ文字起こしから抽出されるキーワード。

AudioAnalyzerPreset 基本モード

プリセットを使用すると、オーディオまたはビデオ ファイルから複数のオーディオ分析情報を抽出できます。

出力には、オーディオ トランスクリプト用の JSON ファイルと VTT ファイルが含まれます。 このプリセットは、BCP47 文字列の形式で入力ファイルの言語を指定するプロパティを受け入れます。 出力には次のものが含まれます。

  • オーディオ文字起こし: タイムスタンプを持つ話し言葉のトランスクリプト。 複数の言語がサポートされていますが、自動言語検出と話者のダイアライズは含まれません。
  • キーワード: オーディオ文字起こしから抽出されるキーワード。

VideoAnalyzerPreset

プリセットを使用すると、ビデオ ファイルから複数のオーディオとビデオの分析情報を抽出できます。 出力には、JSON ファイル (すべての分析情報を含む)、ビデオ トランスクリプト用の VTT ファイル、サムネイルのコレクションが含まれます。 このプリセットでは、プロパティとして BCP47 文字列 (ビデオの言語を表す) も受け入れます。 ビデオの分析情報には、上記のすべてのオーディオ分析情報と、次の追加項目が含まれます。

  • 顔追跡: 顔がビデオに存在する時間。 各顔には、顔 ID と、対応するサムネイルのコレクションがあります。
  • ビジュアル テキスト: 光学式文字認識によって検出されたテキスト。 テキストにはタイムスタンプが設定され、(音声トランスクリプトに加えて) キーワードを抽出するためにも使用されます。
  • キーフレーム: ビデオから抽出されたキーフレームのコレクション。
  • ビジュアル コンテンツ モデレーション: 成人またはわいせつとしてフラグが設定されたビデオの一部。
  • 注釈: 定義済みのオブジェクト モデルに基づいてビデオに注釈を付ける結果

insights.json 要素

出力には、ビデオまたはオーディオで見つかったすべての分析情報を含む JSON ファイル (insights.json) が含まれます。 JSON には、次の要素を含めることができます。

写し

名前 形容
身分証明書 行 ID。
テキスト トランスクリプト自体。
言語 トランスクリプト言語。 各行に異なる言語を使用できるトランスクリプトをサポートすることを目的としています。
インスタンス この行が表示された時間範囲の一覧。 インスタンスがトランスクリプトの場合、インスタンスは 1 つだけになります。

例:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

名前 形容
身分証明書 OCR 行 ID。
テキスト OCR テキスト。
信任 認識の信頼度。
言語 OCR 言語。
インスタンス この OCR が表示された時間範囲の一覧 (同じ OCR が複数回出現する可能性があります)。
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

名前 形容
身分証明書 顔 ID。
名前 顔の名前。 "Unknown #0"、識別された著名人、または顧客のトレーニングを受けたユーザーを指定できます。
信任 顔識別の信頼度。
形容 著名人の説明。
thumbnailId その顔のサムネイルの ID。
knownPersonId 内部 ID (既知の人物の場合)。
referenceId Bing ID (Bing著名人の場合)。
referenceType 現在Bing。
タイトル タイトル (著名人の場合は "Microsoft の CEO" など)。
imageUrl 著名人の場合は、画像の URL。
インスタンス 指定した時間範囲に顔が表示されたインスタンス。 各インスタンスには thumbnailsId もあります。
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

ショット

名前 形容
身分証明書 ショット ID。
keyFrames ショット内のキー フレームの一覧 (それぞれに ID とインスタンスの時間範囲の一覧があります)。 キー フレーム インスタンスには、keyFrame のサムネイル ID を持つ thumbnailId フィールドがあります。
インスタンス このショットの時間範囲の一覧 (ショットにはインスタンスが 1 つだけ含まれます)。
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

統計学

名前 形容
CorrespondenceCount ビデオ内の対応の数。
WordCount 話者ごとの単語数。
SpeakerNumberOfFragments スピーカーがビデオに含めるフラグメントの量。
SpeakerLongestMonolog スピーカーの最長のモノローグ。 話者がモノローグ内に無音を持っている場合は、それが含まれます。 モノログの先頭と末尾の無音が削除されます。
SpeakerTalkToListenRatio 計算は、話者のモノローグに費やされた時間 (間に無音なし) をビデオの合計時間で割った値に基づいています。 時刻は、小数点 3 番目に丸められます。

ラベル

名前 形容
身分証明書 ラベル ID。
名前 ラベル名 (たとえば、"Computer"、"TV")。
言語 ラベル名の言語 (翻訳時)。 BCP-47
インスタンス このラベルが表示された時間範囲の一覧 (1 つのラベルが複数回表示される場合があります)。 各インスタンスには信頼度フィールドがあります。
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

キーワード

名前 形容
身分証明書 キーワード ID。
テキスト キーワード テキスト。
信任 キーワードの認識の信頼度。
言語 キーワード言語 (翻訳時)。
インスタンス このキーワードが出現した時間範囲の一覧 (1 つのキーワードが複数回出現する可能性があります)。
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

visualContentModeration ブロックには、Video Indexer が成人向けコンテンツを含む可能性がある時間範囲が含まれています。 visualContentModeration が空の場合、識別された成人用コンテンツはありません。

成人向けまたはわいせつなコンテンツが含まれていることが判明したビデオは、プライベート ビューでのみ使用できます。 ユーザーは、コンテンツの人間によるレビューの要求を送信できます。その場合、IsAdult 属性には人間によるレビューの結果が含まれます。

名前 形容
身分証明書 ビジュアル コンテンツ モデレーション ID。
adultScore 成人スコア (コンテンツ モデレーターから)。
racyScore わいせつなスコア (コンテンツ モデレーションから)。
インスタンス このビジュアル コンテンツ モデレーションが表示された時間範囲の一覧。
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

ヘルプとサポートを受ける

Media Services に質問がある場合は、次のいずれかの方法で更新プログラムに従ってください。