カスタムテキスト読み上げアバターを作成する方法

[アーティクル]
01/15/2025

カスタムテキスト読み上げアバターの使用開始は簡単なプロセスです。必要なものは、アクターのいくつかのビデオクリップのみです。同じアクターに対してカスタム音声をトレーニングする場合、別々にそれを行うことができます。

Note

カスタムアバターのアクセスは、資格と使用条件に基づいて制限されます。入力フォームでアクセスを要求します。

前提条件

カスタムアバターのトレーニングをサポートするリージョンのいずれかに Speech リソースが必要です。カスタムアバターでは、標準 (S0) Speech リソースのみがサポートされます。

タレントが、自身の画像と音声の使用を認める同意ステートメントを読んでいるビデオ録画が必要です。このビデオは、アバタータレントを設定するときにアップロードします。詳細については、「アバタータレントの同意を追加する」を参照してください。

トレーニングデータとしてアバタータレントのビデオ録画が必要です。これらのビデオは、トレーニングデータを準備するときにアップロードします。詳細については、「トレーニングデータを追加する」を参照してください。

手順 1: カスタムアバタープロジェクトを作成する

カスタムアバタープロジェクトを作成するには、次の手順に従います。

Speech Studio にサインインし、サブスクリプションと Speech リソースを選択します。
[カスタムアバター] (プレビュー) を選択します。
[+ プロジェクトの作成] を選択します。
ウィザードの手順に従ってプロジェクトを作成します。

ヒント

1 つのプロジェクトで異なるアバターのデータを混在させないでください。新しいアバターに対しては、常に新しいプロジェクトを作成します。
新しいプロジェクトを名前で選択しますすると、左側のパネルには、[アバタータレントの設定]、[トレーニングデータの準備]、[モデルのトレーニング]、[モデルのデプロイ] というメニュー項目が表示されます。

アバタータレントは、スピーキングビデオがレコーディングされている個人またはターゲットアクターであり、ニューラルアバターモデルの作成に使用されます。関連するあらゆる法律と規制の下、カスタムテキスト読み上げアバターの作成に動画を使用するための十分な同意をアバタータレントから取得する必要があります。

動画ファイルは、イメージと声の使用を認めるアバタータレントからの声明動画付きで提供する必要があります。 Microsoft は、Microsoft が提供する事前定義済みのスクリプトと記録内のコンテンツが一致することを確認します。 Microsoft は、声明動画ファイルに記録されているアバタータレントの顔と、トレーニングデータセットから無作為に選択された動画を比較し、動画のアバタータレントと声明動画ファイルのアバタータレントが同じ人物であることを確認します。

Azure-Samples/cognitive-services-speech-sdk GitHub リポジトリを使用して、複数の言語で音声による同意ステートメントを見つけることができます。口頭によるステートメントの言語は、録音の言語と同じである必要があります。「ボイスタレント向けの開示」も参照してください。

同意ビデオのレコーディングに関する詳細については、「ビデオサンプルをレコーディングする方法」を参照してください。

アバタータレントプロファイルを追加し、同意ステートメントをプロジェクトにアップロードするには、次の手順に従います。

Speech Studio にサインインします。
[カスタムアバター]><プロジェクト名>>[アバタータレントの設定]>[同意ビデオのアップロード] の順に選択します。
[同意ビデオのアップロード] ページで、指示に従って、事前にレコーディングしたアバタータレントの同意ビデオをアップロードします。
- アバタータレントによってレコーディングされた口述の同意ステートメントの会話の言語を選択します。
- アバタータレント名と会社名を、レコーディングされたステートメントと同じ言語で入力します。
  - アバタータレント名は、同意ステートメントをレコーディングした人の名前でなければなりません。
  - 会社名は、録音されたステートメントで読み上げられた会社名と一致する必要があります。
- データのアップロードを、ローカルファイルから行うか、または Azure BLOB を使用して共有ストレージから行うかを選択できます。
[アップロード] を選択します。

アバタータレントの同意を問題なくアップロードできたら、カスタムアバターモデルのトレーニングに進むことができます。

手順 3: トレーニングデータを追加する

Speech サービスでは、トレーニングデータを使用して、レコーディング内の人物の外観に合わせて調整された固有のアバターを作成します。アバターモデルをトレーニングしたら、アバタービデオの合成を開始したり、アプリケーション内のライブチャットに使用したりできます。

アップロードするすべてのデータは、選択したデータの種類の要件を満たしている必要があります。 Speech サービスによってデータが正確に処理されるようにするためには、データをアップロードする前に適切にフォーマットすることが重要です。データが正しくフォーマットされていることを確認するには、「データの要件」を参照してください。

データをアップロードする

データをアップロードする準備ができたら、[トレーニングデータの準備] タブに移動して、データを追加します。

トレーニングデータをアップロードするには、次の手順に従います。

Speech Studio にサインインします。
[カスタムアバター]><プロジェクト名>>[トレーニングデータの準備]>[データのアップロード] の順に選択します。
[データのアップロード] ウィザードで、データ型を選択し、[次へ] を選択します。データ型 ([自然読み上げ]、[サイレント]、[ジェスチャ]、[状態 0 の発話] など) の詳細については、「レコーディングするビデオクリップ」を参照してください。
コンピューターからローカルファイルを選択するか、データが格納されている Azure BLOB ストレージの URL を入力します。
[次へ] を選択します。
アップロードの詳細を確認し、[送信] を選択します。

[送信] を選択すると、データファイルが自動的に検証されます。データ検証には、ファイル形式、サイズ、合計ボリュームを確認する、ビデオファイルの一連のチェックが含まれます。エラーが見つかった場合は、修正して再度送信します。

データをアップロードしたら、トレーニングを開始するのに十分なデータを提供したかどうかを示すデータの概要を確認できます。このスクリーンショットは、他のジェスチャなしでアバターをトレーニングするために追加された十分なデータの例を示しています。

手順 4: アバターモデルをトレーニングする

重要

プロジェクト内のすべてのトレーニングデータがトレーニングに含まれます。モデルの品質は、提供したデータに大きく依存しており、ビデオ品質に関する責任はデータの提供者にあります。「ビデオサンプルガイドをレコーディングする方法」に従ってトレーニングビデオをレコーディングしてください。

Speech Studio でカスタムアバターを作成するには、次のいずれかの方法の次の手順に従います。

Speech Studio にサインインします。
[カスタムアバター]><プロジェクト名>>[モデルのトレーニング]>[モデルのトレーニング] の順に選択します。
モデルを識別しやすい [名前] を入力します。名前は慎重に選択します。モデル名は、SDK と SSML 入力を使用した合成要求のアバター名として使用されます。使用できるのは英字、数字、ハイフン、アンダースコアのみです。各モデルに一意の名前を使用します。

重要

アバターモデル名は、同一の Speech または AI Services リソース内で一意である必要があります。
モデルのトレーニングを開始するには、トレーニングを選択します。

トレーニング期間は、使用するデータ量によって異なります。カスタムアバターをトレーニングするには、通常約 20 ～ 40 コンピューティング時間かかります。トレーニングの課金のしくみについては、「価格に関する注意」を確認してください。

カスタムアバターモデルを別のプロジェクトにコピーする (省略可能)

カスタムアバターのトレーニングは、現在一部のリージョンでのみ使用できます。サポートされているリージョンでトレーニングが完了したアバターモデルは、必要に応じて別のリージョンの Speech リソースにコピーできます。詳細については、リージョンテーブルの脚注を参照してください。

カスタムアバターモデルを別のプロジェクトにコピーするには、次のようにします。

[モデルのトレーニング] タブで、コピーするアバターモデルを選択し、[プロジェクトにコピー] を選択します。
モデルをコピーするサブスクリプション、リージョン、Speech リソース、プロジェクトを選択します。ターゲットリージョンに Speech リソースとプロジェクトが存在する必要があります。存在しない場合は、先に作成する必要があります。
[送信] を選択してモデルをコピーします。

モデルのコピーが完了すると、Speech Studio に通知が表示されます。

モデルのコピーをデプロイするためにモデルをコピーしたプロジェクトに移動します。

手順 5: アバターモデルをデプロイして使用する

アバターモデルを正常に作成してトレーニングしたら、それをエンドポイントにデプロイします。

アバターをデプロイするには次のようにします。

Speech Studio にサインインします。
[カスタムアバター]><プロジェクト名>>[モデルのデプロイ] の順に選択します。
[モデルのデプロイ] を選択し、デプロイするモデルを選択します。
[デプロイ] を選んで、デプロイを始めます。

重要

モデルがデプロイされると、当該エンドポイントとのやり取りの有無に関わらず、エンドポイントの継続的なアップタイムに対して料金が発生します。モデルのデプロイの課金のしくみについては、価格に関する注意を確認してください。モデルが使用されていないときにはデプロイを削除することで、支出を削減し、リソースを節約できます。

カスタムアバターをデプロイすると、Speech Studio または API で使用できるようになります。

アバターは、Speech Studio のテキスト読み上げアバターのアバターリストに表示されます。
アバターは、Speech Studio のライブチャットアバターのアバターリストに表示されます。
アバターモデル名を指定することで、SDK および SSML 入力からアバターを呼び出すことができます。詳細については、「アバターのプロパティ」を参照してください。

デプロイの削除

デプロイを削除するには、次の手順に従います。

Speech Studio にサインインします。
[カスタムアバター]><プロジェクト名>>[モデルのデプロイ] の順に移動します。
[モデルのデプロイ] ページでデプロイを選択します。ステータスが "Succeeded" の場合、モデルはアクティブにホストされています。
[デプロイの削除] ボタンを選択し、削除を確認してホスティングを削除できます。

ヒント

デプロイが削除されると、そのホスティングに対する支払いはなくなります。デプロイを削除しても、モデルが削除されることはありません。モデルを再度使用する場合は、新しいデプロイを作成します。

カスタム音声を使用する (省略可能)

アクター用にカスタムニューラル音声 (CNV) も作成することで、アバターは非常に写実的になります。詳細については、「カスタムテキスト読み上げアバターとは」を参照してください。

カスタム音声とカスタムテキスト読み上げアバターは、個別の機能です。これらを個別に使用することも、一緒に使用することもできます。

カスタム音声を作成し、それをカスタムアバターと使用する場合は、次の点に注意してください。

カスタム音声エンドポイントがカスタムアバターエンドポイントと同じ Speech リソースに作成されていることを確認します。必要に応じて、「プロフェッショナル音声モデルをトレーニングする」を参照して、カスタム音声モデルをカスタムアバターエンドポイントと同一の Speech リソースにコピーします。
カスタム音声オプションは、[アバターコンテンツ生成ページ] と、[ライブチャットの音声設定] の音声一覧に表示されます。
アバター API のバッチ合成を使用している場合は、"customVoices" プロパティを追加して、カスタム音声モデルのデプロイ ID を要求の音声名に関連付けます。詳細については、「テキスト読み上げプロパティ」を参照してください。
アバター API にリアルタイム合成を使用している場合は、GitHub のサンプルコードを参照して、カスタム音声を設定してください。

次の方法で共有

カスタムテキスト読み上げアバターを作成する方法

前提条件

手順 1: カスタムアバタープロジェクトを作成する

手順 3: トレーニングデータを追加する

データをアップロードする

手順 4: アバターモデルをトレーニングする

カスタムアバターモデルを別のプロジェクトにコピーする (省略可能)

手順 5: アバターモデルをデプロイして使用する

デプロイの削除

カスタム音声を使用する (省略可能)

次のステップ

フィードバック

その他のリソース

次の方法で共有

カスタム テキスト読み上げアバターを作成する方法

前提条件

手順 1: カスタム アバター プロジェクトを作成する

手順 2: アバター タレントの同意を追加する

手順 3: トレーニング データを追加する

データをアップロードする

手順 4: アバター モデルをトレーニングする

カスタム アバター モデルを別のプロジェクトにコピーする (省略可能)

手順 5: アバター モデルをデプロイして使用する

デプロイの削除

カスタム音声を使用する (省略可能)

次のステップ

フィードバック

その他のリソース

カスタムテキスト読み上げアバターを作成する方法

手順 1: カスタムアバタープロジェクトを作成する

手順 2: アバタータレントの同意を追加する

手順 3: トレーニングデータを追加する

手順 4: アバターモデルをトレーニングする

カスタムアバターモデルを別のプロジェクトにコピーする (省略可能)

手順 5: アバターモデルをデプロイして使用する