カスタムテキスト読み上げアバターとは?

[アーティクル]
09/11/2024

カスタムテキスト読み上げアバターを使用すると、アプリケーション用にカスタマイズされた世界にひとつの合成会話アバターを作成できます。カスタムテキスト読み上げアバターを使用すると、選択したアクターのビデオ録画データを提供することで、製品やブランドに固有の自然な見た目のアバターを作成できます。同じアクターのカスタムニューラル音声も作成し、それをアバターの声として使用すると、アバターはさらに現実的になります。

重要

カスタムテキスト読み上げアバターアクセスは、資格と使用条件に基づいて制限されます。入力フォームでアクセスを要求します。

それはどのように機能しますか?

カスタムテキスト読み上げアバターを作成するには、トレーニングデータとしてアバタータレントのビデオ記録が少なくとも 10 分必要です。最初に、アクタータレントから同意を得る必要があります。

重要

現在、カスタムテキスト読み上げアバターの場合、データ処理とモデルトレーニングは手動で行われます。

作業を開始する前に、いくつかの考慮事項を次に示します:

ユースケース: アバターを使用して、トレーニング資料、製品の紹介などのビデオコンテンツを作成しますか、それとも顧客とのリアルタイムの会話で仮想営業担当者としてアバターを使用しますか? さまざまなユースケースに対していくつかの録画要件があります。

アバターの外観: カスタムテキスト読み上げアバターは、トレーニングデータのアバタータレントと同じように見えます。また、服、ヘアスタイルなど、アバターモデルの外観のカスタマイズはサポートされていません。そのため、アプリケーションで同じアバターの複数のスタイルが必要な場合は、各スタイルのトレーニングデータを準備する必要があります。アバターの各スタイルが 1 つのアバターモデルと見なされるためです。

アバターの音声: カスタムテキスト読み上げアバターは、事前構築済みのニューラル音声とカスタムニューラル音声の両方で機能します。アバタータレント用にカスタムニューラル音声を作成し、そのアバターと一緒に使用すると、アバターエクスペリエンスの自然性が大幅に向上します。

カスタムテキスト読み上げアバターを作成する手順の概要を次に示します:

同意のビデオを取得する: 同意ステートメントのビデオ録画を取得します。同意ステートメントは、アバタータレントがステートメントを読み上げるもので、画像と音声データを使用してカスタムテキスト読み上げアバターモデルにトレーニングすることに同意するビデオ記録です。
トレーニングデータを準備する: ビデオ記録が適切な形式であることを確認します。きれいな背景画像を得るために、プロ品質のビデオ撮影スタジオでビデオ録画を撮影することをお勧めします。結果として得られるアバターの品質は、トレーニングに使用される録画ビデオによって大きく異なります。話す速度、体の姿勢、顔の表情、手のジェスチャー、アクターの位置の一貫性、ビデオ録画の照明などの要因は、魅力的なカスタムテキスト読み上げアバターに作成するために不可欠です。
アバターモデルのトレーニング: アバタータレントの同意ステートメントを確認した後、カスタムテキスト読み上げモデルのトレーニングを開始します。この手順は現在、Microsoft によって手動で行われています。モデルが正常にトレーニングされると、通知が表示されます。
音声モデルをアプリにデプロイして使用します

コンポーネントシーケンス

カスタムテキスト読み上げアバターモデルには、テキストアナライザー、テキスト読み上げオーディオシンセサイザー、テキスト読み上げアバタービデオレンダラーの 3 つのコンポーネントが含まれています。

アバターモデルを使用してアバタービデオファイルまたはストリームを生成するには、テキストが最初にテキストアナライザーに入力され、音素シーケンスの形式で出力が提供されます。
オーディオシンセサイザーは、入力テキストの音声オーディオを合成し、これら 2 つの部分は、テキスト読み上げまたはカスタムニューラル音声モデルによって提供されます。
最後に、ニューラルテキスト読み上げアバターモデルは、合成ビデオが生成されるように、音声オーディオとのリップシンクの画像を予測します。

ニューラルテキスト読み上げモデルは、さまざまな言語の人間のビデオの記録サンプルに基づいて、ディープニューラルネットワークを使用してトレーニングされます。事前構築済みの音声とカスタムニューラル音声のすべての言語をサポートできます。

カスタム音声とカスタムテキスト読み上げアバター

カスタムテキスト読み上げアバターは、事前構築済みのニューラル音声またはカスタムニューラル音声をアバターの音声として使用できます。詳細については、「アバターの音声と言語」を参照してください。

カスタムニューラル音声とカスタムテキスト読み上げアバターは、個別の機能です。これらを個別に使用することも、一緒に使用することもできます。それらを組み合わせて使用する場合は、カスタムニューラル音声とカスタムテキスト読み上げアバターを別々に申し込む必要があり、カスタムニューラル音声とカスタムテキスト読み上げアバターには別途料金がかかります。詳細については、価格に関するページをご覧ください。さらに、テキスト読み上げアバターでカスタムニューラル音声を使用する予定の場合は、カスタムニューラル音声モデルをアバターがサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。

次の方法で共有

カスタムテキスト読み上げアバターとは?

それはどのように機能しますか?

コンポーネントシーケンス

カスタム音声とカスタムテキスト読み上げアバター

次のステップ

フィードバック

その他のリソース

次の方法で共有

カスタム テキスト読み上げアバターとは?

それはどのように機能しますか?

コンポーネント シーケンス

カスタム音声とカスタム テキスト読み上げアバター

次のステップ

フィードバック

その他のリソース

カスタムテキスト読み上げアバターとは?

コンポーネントシーケンス

カスタム音声とカスタムテキスト読み上げアバター