Azure AI Video Indexer を使用して言語モデルをカスタマイズする
Azure AI Video Indexer は、Microsoft Custom Speech Service との統合を通して自動音声認識をサポートしています。 適応テキストをアップロードすることで、言語モデルをカスタマイズできます。 このテキストは、エンジンが適応するために使用するボキャブラリを持つドメインに由来します。 モデルをトレーニングすると、適応テキストに表示される新しい単語が認識され、既定の発音が想定され、言語モデルは単語の新しい可能性のあるシーケンスを学習します。 サポートされている言語で Azure AI Video Indexer 言語のサポート対象の一覧を参照してください。
たとえば、 "Kubernetes" (Azure Kubernetes サービスのコンテキスト) は、非常に具体的な単語です。 その単語は Azure AI Video Indexer にとって未知のものであるため、"コミュニティ" として認識されます。 モデルをトレーニングして、 "Kubernetes"として認識します。 それ以外の場合は、単語は存在しますが、言語モデルでは、特定のコンテキストで単語が表示されるのを想定していません。 たとえば、 "container service" は、指定されていない言語モデルが特定の単語セットとして認識する 2 単語シーケンスではありません。
言語モデルをカスタマイズする方法は 2 つあります。
- オプション 1: Azure AI Video Indexer によって生成されたトランスクリプトを編集します。 トランスクリプトを編集して修正することで言語モデルをトレーニングし、将来的に改善された結果を提供します。
- オプション 2: テキスト ファイルをアップロードして言語モデルをトレーニングします。 ファイルには、Video Indexer トランスクリプトに表示する単語の一覧、または文や段落に自然に含まれる関連する単語を含めることができます。 後者の方法を使用するとより良い結果が得られるため、アップロード ファイルに、コンテンツに関連する完全な文や段落を含めることをお勧めします。
重要
現在誤って文字起こしされている単語や文 (たとえば、 "コミュニティ") は、意図した影響を否定するため、アップロード ファイルに含めないでください。 含まれるようにしたい単語のみを含めます ("Kubernetes" など)。
カスタム言語モデルを最適化する
Azure AI Video Indexer は、単語の組み合わせの確率に基づいて学習するので、最適な学習を行うには、以下のようにします。
- 実際に話されるとおりの文例を十分に提供します。
- 各行には 1 つの文だけを配置します。多くてはいけません。 そのようにしないと、システムでは複数の文にわたる確率が学習されます。
- 1 つの単語を文として配置し、特定の単語を他の単語よりも優先して学習させてもかまいませんが、システムが最適な学習を行うのは完全な文からです。
- 新しい単語や頭字語を導入するときには、可能であれば、できるだけ多くの使用例を完全な文で提供し、システムにできるだけ多くのコンテキストを提供します。
- いくつかの適応オプションを試して、どのような結果が得られるかを確認します。
- まったく同じ文を複数回繰り返すのは避けてください。 それが、残りの入力に対して偏りを生む可能性があります。
- 一般的でないシンボル (~、# @ % > は破棄されるため) を含めないでください。 それらが出現する文も破棄されます。
- 数十万の文など、大きすぎる入力を供給するとブースティングの効果が薄まるため、そうしないようにします。
前提条件
- Azure アカウント
- Azure AI Video Indexer アカウント
言語モデルを作成する
- Azure AI Video Indexer の Web サイトに移動してサインインします。
- アカウント内のモデルをカスタマイズするには、ページの左にある [コンテンツ モデルのカスタマイズ] ボタンを選択します。
- Language タブを選択します。サポートされている言語の一覧が表示されます。
- 目的の言語の下で、[モデルを追加] を選択します。
- 言語モデルの名前を入力し、Enter キーを押します。 この手順によってモデルが作成され、モデルにテキスト ファイルをアップロードするオプションが提供されます。
- テキスト ファイルを追加するには、[ファイルの追加] を選択します。 ファイル エクスプローラーが開かれます。
- テキスト ファイルの場所に移動し、ファイルを選択します。 1 つの言語モデルに複数のテキスト ファイルを追加できます。 言語モデルの右側にある [ ... ] ボタンを選択し、[ファイルの追加] を選択して、テキスト ファイル 追加することもできます。
- テキスト ファイルのアップロードが完了したら、緑色の [トレーニング] オプションを選択します。
トレーニング プロセスには数分かかることがあります。 トレーニングが完了すると、モデルの横に Trained が表示されます。 ユーザーは、モデル内のファイルをプレビュー、ダウンロード、削除することができます。
新しいビデオでの言語モデルの使用
新しいビデオで言語モデルを使用するには、次のいずれかの操作を行います。
- ページ上部の [アップロード] ボタンを選択します。
- オーディオまたはビデオ ファイルをドロップするか、ファイルを参照します。
- Video ソース言語ドロップダウン リストから作成した言語モデルを選択します。
- ページ下部の [アップロード] オプションを選択すると、その言語モデルを使用して、新しいビデオにインデックスが作成されます。
言語モデルを使用してインデックスを再作成する
- Azure AI Video Indexer のホーム ページにサインインします。
- ビデオの [...] ボタンをクリックし、[インデックスの再作成] を選択します。
- Video ソース言語ドロップダウンを選択し、一覧から作成した言語モデルを選択します。
- Re-index ボタンを選択すると、言語モデルを使用してビデオのインデックスが再作成されます。
言語モデルを編集する
言語モデルを編集するには、その名前を変更し、それにファイルを追加し、そこからファイルを削除します。 言語モデルからファイルを追加または削除する場合は、緑色の Train オプションを選択して、モデルをもう一度トレーニングする必要があります。
言語モデルの名前を変更する
言語モデルの名前を変更するには、言語モデルの右側にある省略記号 (...) ボタンを選択し、 Renameを選択します。 新しい名前を入力します。
ファイルの追加
- [ファイルの追加] を選択します。 ファイル エクスプローラーが開かれます。
- テキスト ファイルの場所に移動し、ファイルを選択します。 1 つの言語モデルに複数のテキスト ファイルを追加できます。
テキスト ファイルを追加するには、言語モデルの右側にある省略記号 (...) ボタンを選択し、 ファイルの追加を選択します。
ファイルを削除する
このアクションにより、言語モデルからファイルが完全に削除されます。
- テキスト ファイルの右側にある省略記号 (...) ボタンを選択します。
- [削除] を選択します。 新しいウィンドウが開き、削除は元に戻せないというメッセージが表示されます。
- 新しいウィンドウで [削除] オプションを選択します。
言語モデルを削除する
この操作により、言語モデルがアカウントから完全に削除されます。 deletedlLanguage モデルを使用していたビデオは、ビデオのインデックスを再作成するまで同じインデックスを保持します。 ビデオのインデックスを再作成する場合は、ビデオに新しい言語モデルを割り当てることができます。 それ以外の場合、Azure AI Video Indexer では既定のモデルを使用して、ビデオのインデックスが再作成されます。
- 言語モデルの右側にある省略記号 (...) ボタンを選択します。
- [削除] を選択します。 新しいウィンドウが開き、削除は元に戻せないというメッセージが表示されます。
- 新しいウィンドウで [削除] オプションを選択します。
トランスクリプトを修正して言語モデルをカスタマイズする
Azure AI Video Indexer は、ユーザーがビデオの文字起こしに対して行った実際の修正に基づいて言語モデルをカスタマイズします。 ビデオの文字起こしで修正したすべての行がキャプチャされ、 From transcript edits
というテキスト ファイルに追加されます。 これらの編集は、ビデオのインデックス作成に使用された言語モデルを再トレーニングするために使用されます。
widget のタイムラインで行われた編集も含まれます。
このビデオのインデックス作成時に言語モデルを指定しなかった場合、このビデオのすべての編集は、検出されたビデオの言語内で Account adaptations
という既定の言語モデルに格納されます。
同じ行に対して複数の編集が行われた場合、言語モデルの更新には、修正された行の最後のバージョンのみが使用されます。
Note
カスタマイズに使用されるのは、テキストの変更のみです。 実際の単語に関係しない変更 (句読点やスペースなど) は含められません。
- ライブラリから編集するビデオを選択します。
- [タイムライン] タブを選択します。
- 鉛筆アイコンを選択して、文字起こしのトランスクリプトを編集します。
- トランスクリプトの修正は、[Conテント モードl カスタマイズ] ページの [Language タブに表示されます。 自分の各言語モデルの "From transcript edits" ファイルを確認するには、そのファイルを選択して開きます。