メディアの文字起こし、翻訳、言語識別に関する分析情報を取得する

[アーティクル]
10/09/2024

メディアの文字起こし、翻訳、言語識別

文字起こし、翻訳、言語識別は、メディアファイル内の音声を検出し、文字起こしし、50 を超える言語に翻訳します。

Azure AI Video Indexer (VI) は、オーディオファイル内の音声を処理して文字起こしを抽出し、多くの言語に翻訳します。特定の言語への翻訳を選択すると、音声テキストとキーワード、トピック、ラベル、OCR などの分析情報の両方が、指定した言語に翻訳されます。文字起こしは、そのまま使用するか、話者に音声テキストをマップして割り当てる話者の分析情報と組み合わせて使用することができます。 1 つのオーディオファイルで複数の話者を検出できます。 ID が各話者に割り当てられ、文字起こしされた音声の下に表示されます。

言語識別 (LID) は、ビデオファイルでサポートされている主要な音声言語を認識します。詳細については、「LID の適用」を参照してください。

複数言語識別 (MLID) オーディオファイル内の異なるセグメント内の音声言語を自動的に認識し、識別された言語で文字起こしされるように各セグメントを送信します。このプロセスの最後に、すべての音声テキストが同じファイルに結合されます。詳細については、「MLID の適用」を参照してください。結果の分析情報は、ID、言語、文字起こしされたテキスト、期間、信頼度スコアを含む JSON ファイル内の分類されたリストで生成されます。

複数のスピーカーを使用してメディアファイルのインデックスを作成する場合、Azure AI Video Indexer は、ビデオ内の各スピーカーを識別し、各文字起こしされた行をスピーカーに属性付けするスピーカーの diarization を実行します。話者には、Speaker #1、Speaker #2 などの一意の ID が与えられます。これにより、会話中の話者の識別が可能になり、医師と患者の会話、エージェントと顧客の対話、裁判所の手続きなど、さまざまなシナリオで役立ちます。

メディアの文字起こし、翻訳、言語識別のユースケース

Azure AI Video Indexer を使用して音声からテキストへの文字起こしと複数の言語への翻訳を生成して聴覚障碍のあるユーザーがコンテンツを利用できるようにすることでアクセシビリティを促進します。
Azure AI Video Indexer の文字起こしと翻訳機能を使用してコンテンツを複数の言語で配信することで、さまざまな地域や言語の多様な聴衆へのコンテンツ配信を改善します。
Azure AI Video Indexer の文字起こしと翻訳機能を使用し、サポートされているいずれかの形式で Azure AI Video Indexer によって生成されたクローズドキャプションを使用して、手動のクローズドキャプションと字幕の生成を強化および改善します。
言語が不明なビデオの文字起こしを行うための言語識別 (LID) または多言語識別 (MLID) を使用して、Azure AI Video Indexer がビデオ内に現れる言語を自動的に識別し、それに応じた音声テキストを生成できるようにします。

Web ポータルで分析情報 JSON を表示する

ビデオをアップロードしてインデックスを作成すると、Web ポータルを使用してダウンロードするための JSON 形式で分析情報を入手できます。

Library タブを選択します。
操作するメディアを選択します。
ダウンロードを選択し、Insights (JSON)を選択します。 JSON ファイルが新しいブラウザータブで開きます。
応答例で説明されているキーペアを探します。

API の使用

Get Video Index 要求を使用します。 &includeSummarizedInsights=false渡すことをお勧めします。
応答例で説明されているキーペアを探します。

応答の例

ビデオで検出されたすべての言語は sourceLanauge の下にあり、文字起こし sectin の各インスタンスには、trascribed 言語が含まれています。

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

重要

すべてのVI機能のトランスパレンシーノートの概要を読む必要があります。各分析情報には、独自の透明性に関するメモもあります。

文字起こし、翻訳、言語識別に関するメモ

責任を持って慎重に使用すれば、Azure AI Video Indexer は多くの業界にとって価値のあるツールとなります。お客様は、常に他のユーザーのプライバシーと安全性を尊重し、現地およびグローバルの規制に準拠する必要があります。以下のことが推奨されます。

結果の精度を慎重に検討し、より正確なデータを促進し、オーディオの品質を確認し、低品質のオーディオが検出された分析情報に影響を与える可能性があります。
Video Indexer は話者認識を実行しないため、話者には複数のファイル間で識別子が割り当てられません。複数のファイルまたはトランスクリプトで個々の話者を検索することはできません。
話者識別子はランダムに割り当てられ、1 つのファイル内の異なる話者を区別するためにのみ使用できます。
クロストークと重複音声: 複数の話者が同時に話したり、割り込み合ったりすると、モデルが正確に認識を行い適切なテキストを対応する話者に割り当てることが困難になります。
話者の重複: 話者の音声パターンやアクセントが似ている場合や、似たボキャブラリを使用する場合があり、モデルで区別が難しい場合があります。
ノイズの多いオーディオ: 低品質オーディオ、バックグラウンドノイズ、低品質の録音は、話者を正しく識別して文字起こしするモデルの機能を妨げる可能性があります。
感情的な音声: 音声内の感情的なバリエーション (叫ぶ、泣く、極端な興奮など) は、話者を正確に記録するモデルの機能に影響を与える可能性があります。
話者の偽装またはなりすまし: 話者が意図的に他者の声を模倣または偽装しようとすると、モデルは話者を誤って識別する可能性があります。
あいまいな話者識別: 一部の音声セグメントには、モデルが特定の話者に自信を持って属性を付けるのに十分な固有の特性がない場合があります。
選択した言語以外の言語を含むオーディオでは、予期しない結果が生成されます。
各言語を検出するための最小セグメント長は 15 秒です。
言語検出オフセットは、平均で 3 秒です。
音声は継続的であることが期待されます。言語間の頻繁な代替は、モデルのパフォーマンスに影響する可能性があります。
非ネイティブスピーカーの音声は、モデルのパフォーマンスに影響する可能性があります (たとえば、話者が第 1 言語を使用し、別の言語に切り替える場合など)。
このモデルは、(音声コマンドや歌声などではなく) 妥当な音声音響で自然な会話音声を認識するように設計されています。
プロジェクトの作成と編集は、複数言語のビデオでは使用できません。
複数言語の検出を使用する場合、カスタム言語モデルは使用できません。
キーワードの追加はサポートされていません。
言語表示は、エクスポートされたクローズドキャプションファイルには含まれません。
API の更新トランスクリプトは、複数の言語ファイルをサポートしていません。
このモデルは、(音声コマンド、歌声などではなく) 自然な会話音声を認識するように設計されています。
Azure AI Video Indexer で十分に高い信頼度 (0.6 超) で言語が識別されない場合、フォールバック言語は英語です。

サポートされている言語一覧を次に示します。

文字起こし、翻訳、言語識別コンポーネント

文字起こし、翻訳、言語識別の手順では、メディアファイル内の音声が以下のように処理されます。

コンポーネント	定義
ソース言語	ユーザーが、インデックス作成のためにソースファイルをアップロードして、以下のいずれかを行います。 - ビデオのソース言語を指定します。 - ファイルの言語を識別するための単一言語自動検出 (LID) を選択します。出力は個別に保存されます。 - ファイル内の複数の言語を識別するための多言語自動検出 (MLID) を選択します。各言語の出力は個別に保存されます。
文字起こし API	オーディオファイルは、文字起こしと翻訳が行われた出力を取得するために Azure AI サービスに送信されます。言語が指定されている場合は、それに応じて処理されます。言語が指定されていない場合は、言語を識別するための LID または MLID プロセスが実行され、その後にファイルが処理されます。
出力の統合	文字起こしされたファイルと翻訳されたファイルは、同じファイルに統合されます。出力されたデータには、抽出された各文の話者 ID とその信頼度レベルが含まれます。
信頼度値	各文の推定信頼度レベルは、0 から 1 の範囲で計算されます。信頼度スコアは、結果の精度の確実性を表しています。たとえば、82% の確実性はスコア 0.82 として表されます。

サンプルコード

VIのすべてのサンプルを見る

次の方法で共有

メディアの文字起こし、翻訳、言語識別に関する分析情報を取得する