カスタムテキスト読み上げアバター用のビデオサンプルを録画する方法

[アーティクル]
01/13/2025

この記事は、カスタムテキスト読み上げアバターを作成するための高品質ビデオサンプルを準備する手順について説明しています。

カスタムテキスト読み上げアバターモデルのビルドには、実際に人間が話しているビデオ録画でトレーニングする必要があります。この人物はアバターのタレントです。タレントの画像または類似性からカスタムアバターを作成するには、関連するあらゆる法律と規制の下、十分な同意をアバタータレントから取得する必要があります。同意ステートメントのビデオの要件については、「アバタータレントから同意ファイルを取得する」をご覧ください。

レコーディング環境

プロのビデオ撮影スタジオまたは明るい場所でのレコーディングをお勧めします。

背景の要件

商用のマルチシーンアバターが必要な場合は、ビデオの背景は、きれいで、滑らかで、純粋な色であることが必要で、グリーンスクリーンが最良の選択です。

アバターを 1 つのシーンでしか使用する必要がない場合は、記録する特定のシーン (オフィス内など) を選択できますが、背景の一部を取り除いたり変更したりすることはできません。

レコーディングに純色の背景 (緑色のスクリーンなど) を使うときに考慮するベストプラクティスを次に示します。

緑のスクリーンを背景に設定します。アバタービデオにアクターの全身 (足を含む) が映る場合は、足の下にも緑の画面が存在する必要があります。そして、背景の緑のスクリーンと床の緑のスクリーンは切れ目なくつながっている必要があります。
緑のスクリーンは平らで、均一な色である必要があります。
アクターは、後ろの背景から 0.5 m から 1 m ほど離れた距離を保つ必要があります。
緑のスクリーンに適切に照明を当てると、影ができないようにできます。
アクターの輪郭全体が、緑のスクリーン内に完全に収まるようにします。
アクターが緑のスクリーンに近づきすぎないようにする必要があります。
話しているときに、アクターの頭や手が緑のスクリーンの外に出ないようにします。

照明の要件

アクターの顔に影が入ったり、眼鏡や衣服に映り込んだりしないよう、均一で明るい照明を当ててください。
アクターの周囲の光が変化しないようにします。プロジェクターの電源を切り、カーテンを閉じて日中の光の変化を避け、安定した人工光源などを使用することをお勧めします。

デバイス

カメラの要件: 解像度 1080-P 以上で 25 FPS (フレーム/秒) 以上。
ビデオ撮影の間中、落ち着いた後に光とカメラの位置を変更しないでください。
レコーディング中にスクリプトを通知するためにテレプロンプターを使うこともできますが、アクターのカメラへの視線に影響を与えないようにしてください。アバターが着席する必要がある場合は、座る場所を用意します。
半身または着席しているデジタルアバターの場合は、アクターが座る場所を用意します。椅子の画像を映したくない場合は、椅子を選択できます。

アクターの外見

カスタムテキスト読み上げアバターは、服装や外見のカスタマイズはサポートしていません。そのため、トレーニングデータを記録する場合は、アバターの外見を慎重にデザインし、準備することが不可欠です。次のヒントを検討してください。

カテゴリ	やるべきこと	非推奨
髪の毛	- アクターの髪は、表面が滑らかでつやがなければなりません。 - アクターの前髪や切れ毛も、境目がはっきりとしていて滑らかでなければなりません。 - ビデオ撮影期間を通して一定に保ちやすいヘアスタイルを選択してください。	- 乱れた髪や背景が透けて見えるような髪型は避けます。 - 髪の毛で目や眉が隠れないようにしてください。 - 髪型によって顔に影ができないようにします。 - 発話やボディジェスチャ中に髪があまり動かないようにします。たとえば、アクターが高い位置のポニーテールにすると、発話中に髪が現れたり、消えたり、揺れたりする可能性があります。
Clothing	- 衣服の状態に注意を払い、話しているときに衣服が大きく変化しないようにします。	- ゆったりしすぎたり、重すぎたり、複雑すぎたりする服やアクセサリーの着用は避けます。発話やボディジェスチャ中に衣服の状態の一貫性に影響を与える可能性があるためです。 - 背景色に近すぎる服や、白いシャツや半透明の素材などの反射素材は着用しないでください。 - 輪郭が目立つ服や、強調したくないロゴやブランド名を含むアイテムは避けます。 - 金属ベルト、光沢のある革靴、レザーパンツなどの反射要素は避けます。
Face	- アクターの顔がはっきりと見えることを確認します。	- 髪、サングラス、アクセサリーによって顔が隠れないようにしてください。

録画するビデオクリップ

いくつかの種類の基本的なビデオクリップが必要です。

同意のビデオ (必須) カスタムアバターを作成するには同意のビデオが必要です。

同意のビデオは、同意ステートメントの要件に従って、同じアバタータレントが話していることを表現する必要があります。ステートメントが正しく記録され、各単語が明確に読み上げられていることを確認します。サポートされている言語のいずれかを選択できます。同意ステートメントのビデオの要件については、「アバタータレントから同意ファイルを取得する」をご覧ください。
アバタータレントは大きな動きをせずに、常にカメラの正面を向いている必要があります。
ビデオは静かな環境で撮影し、音声は適切な音量で録音する必要があります。信号対ノイズ比を 20 より高く保つようにしてください。音声録音のガイダンスについては、カスタム音声サンプルの録音に関するガイドを参照してください。
ビデオの各フレームで頭部が隠れていないことを確認します。
撮影機器、携帯電話などの他の物体がカメラに映っていないことを確認します。

状態 0 の発話 (ジェスチャに必要) アバターでのジェスチャには、状態 0 の発話ビデオクリップが必要です。

状態 0 は、スピーカーが話しているほとんどの時間で自然に保つことができる姿勢を表します。たとえば、体の前で腕組みすることや腕を体側に自然に垂らすことです。
正面向きのポーズを維持します。アクターは、頭や肩を少し動かすなど、リラックスした状態を示すために少し動いても構いませんが、体をあまり大きく動かさないようにします。
長さ: 3 分から 5 分間、状態 0 で話し続けます。

状態 0 の発話のサンプル

話している間で自然に保つことができる姿勢を表す状態 0 で話す Lisa を示すアニメーショングラフィック。

話している間で自然に保つことができる姿勢を表す状態 0 で話す Harry を示すアニメーショングラフィック。

話している間で自然に保つことができる姿勢を表す状態 0 で話す Lori を示すアニメーショングラフィック。

自然な発話 (必須) アバターが自然に話すには自然な発話ビデオクリップが必要です。

時折、自然なジェスチャーを交えながら、状態 0 で話すアクター。
手は状態 0 で始め、ジェスチャーをした後に元に戻します。
話すときは自然で一般的なジェスチャーを使用します。指差し、拍手、親指を立てるなどの意味のあるジェスチャーは避けます。
長さ: 合計で最短 5 分、最長 30 分。 1 本あたり最少 5 分間の継続的なビデオ録画が必要です。複数のビデオクリップを録画する場合は、各クリップを 10 分以内に納めます。

自然な発話のサンプル

話している間で自然に保つことができる姿勢を表す状態 0 で、手で自然なジェスチャーを交えながら話す Lisa のサンプルを示すアニメーショングラフィック。

話している間で自然に保つことができる姿勢を表す状態 0 で、手で自然なジェスチャーを交えながら話す Harry のサンプルを示すアニメーショングラフィック。

話している間で自然に保つことができる姿勢を表す状態 0 で、手で自然なジェスチャーを交えながら話す Lori のサンプルを示すアニメーショングラフィック。

無音状態 (必須) 無音状態ビデオクリップが必要です。これはカスタムアバターとのリアルタイムの会話を作成する場合に重要です。このビデオクリップは、チャットボットの発話と聞き取りの両方の状態用のメインテンプレートとして使用されます。

状態 0 を維持し、話しはせず、リラックスした状態でいます。
状態 0 のままであっても、静止しないでください。少し動くのはかまいませんが、あまり大きく動かないようにします。待っているかのように振舞います。
辛抱強く話を聞いているか、待っているかのように笑顔を保ちます。
頻繁にうなずかないようにしてください。
長さ: 1 分間。

無音状態のサンプル

話さずに静かな状態を維持しているが、リラックスしている Lisa のサンプルを示すアニメーショングラフィック。

話さずに静かな状態を維持しているが、リラックスしている Harry のサンプルを示すアニメーショングラフィック。

話さずに静かな状態を維持しているが、リラックスしている Lori のサンプルを示すアニメーショングラフィック。

ジェスチャ (オプション)

ジェスチャビデオクリップはオプションであり、アバターの発話に特定のジェスチャを挿入する必要があるお客様は、このガイドラインに従ってジェスチャビデオを撮影できます。ジェスチャの挿入はバッチモードアバターでのみ有効です。現時点では、リアルタイムアバターではジェスチャの挿入はサポートされていません。各カスタムアバターモデルがサポートできるジェスチャは、10 個以下です。

ジェスチャのヒント

各ジェスチャクリップは 10 秒以内である必要があります。
ジェスチャは状態 0 から開始し、状態 0 で終了する必要があります。キャラクターは、ジェスチャ全体を通じて、画面の中央にある状態 0 と同じ位置を維持することが重要です。そうしないと、ジェスチャクリップをアバタービデオにスムーズに挿入することはできません。
ジェスチャクリップはボディジェスチャのみをキャプチャします。アクターは、ジェスチャを行う際に話す必要はありません。
録画の前にジェスチャのリストを設計することをお勧めします。ジェスチャビデオクリップの例を次に示します。

ジェスチャのサンプル

手ぶり	サンプル
販売リンク/プロモーションコードの配信
製品の賞賛
製品の紹介
価格の表示 (両手での 1 から 10 までの指マークの数字)	右手左手

高品質のアバターモデルは、音質を含む高品質なビデオ録画から作られています。アクターのパフォーマンスとビデオクリップの録画に関するその他のヒントを次に示します。

やるべきこと	やってはいけないこと
- すべてのビデオクリップが同じ条件で撮影されていることを確認します。 - 録画プロセス中に、必要な文字のサイズと表示領域を設計し、文字を画面に適切に表示できるようにします。 - 録画中はアクターは安定した状態でなければなりません。 - アバターのユースケースに適した表情を意識します。たとえば、カスタムテキスト読み上げアバターがカスタマーサービスとして使用されている場合は、ポジティブな表情で微笑んでください。アバターがニュースの報道に使用されている場合は、プロフェッショナルに見えるようにします。 -テレプロンプターを使用している場合でも、カメラに視線を向けた状態を維持します。 - 発話を一時中断するときは、体の状態を 0 に戻します。 - 自分で選んだトピックについて話し、単語や発音を間違えるような些細なスピーチミスは許容範囲です。アクターが単語や発音を間違えた場合は、状態 0 に戻って 3 秒間一時停止し、それから発話を続行します。 - 文章や段落の間に意識的に間を取ります。一時停止する場合は、状態 0 に戻って口を閉じます。 - 音声は明瞭で十分な音量が必要です。音質が悪い場合は、トレーニング結果に影響します。 - 撮影環境を静かに保ちます。	- カメラのパラメーター、焦点距離、位置、画角を調整しないでください。カメラを動かさないでください。カメラの中の人物の位置、大きさ、角度を一定に保ちます。 - 文字が小さすぎると、後処理中に画質が損なわれる可能性があります。文字が大きすぎると、ジェスチャや移動中に画面からはみ出す可能性があります。 - ジェスチャが長すぎたり、1 つのジェスチャの動きが多すぎることがないようにします。たとえば、アクターの手が常にジェスチャを行っていて、ステータス 0 に戻ることを忘れてしまうような場合です。 - アクターの動きとジェスチャにより顔が隠れないようにしてください。 - 唇をなめる、髪に触れる、横を向いて話す、発話中に常に頭を振る、話した後に口を閉じないなど、アクターの小さな動きは避けます。 - バックグラウンドノイズを避けます。スタッフは、ビデオ録画中に歩いたり話したりしないようにします。 - アクターが話しているときに他の人の声が録音されないようにします。

やるべきこと

やってはいけないこと

- すべてのビデオクリップが同じ条件で撮影されていることを確認します。
- 録画プロセス中に、必要な文字のサイズと表示領域を設計し、文字を画面に適切に表示できるようにします。
- 録画中はアクターは安定した状態でなければなりません。
- アバターのユースケースに適した表情を意識します。たとえば、カスタムテキスト読み上げアバターがカスタマーサービスとして使用されている場合は、ポジティブな表情で微笑んでください。アバターがニュースの報道に使用されている場合は、プロフェッショナルに見えるようにします。
-テレプロンプターを使用している場合でも、カメラに視線を向けた状態を維持します。
- 発話を一時中断するときは、体の状態を 0 に戻します。
- 自分で選んだトピックについて話し、単語や発音を間違えるような些細なスピーチミスは許容範囲です。アクターが単語や発音を間違えた場合は、状態 0 に戻って 3 秒間一時停止し、それから発話を続行します。
- 文章や段落の間に意識的に間を取ります。一時停止する場合は、状態 0 に戻って口を閉じます。
- 音声は明瞭で十分な音量が必要です。音質が悪い場合は、トレーニング結果に影響します。
- 撮影環境を静かに保ちます。

- カメラのパラメーター、焦点距離、位置、画角を調整しないでください。カメラを動かさないでください。カメラの中の人物の位置、大きさ、角度を一定に保ちます。
- 文字が小さすぎると、後処理中に画質が損なわれる可能性があります。文字が大きすぎると、ジェスチャや移動中に画面からはみ出す可能性があります。
- ジェスチャが長すぎたり、1 つのジェスチャの動きが多すぎることがないようにします。たとえば、アクターの手が常にジェスチャを行っていて、ステータス 0 に戻ることを忘れてしまうような場合です。
- アクターの動きとジェスチャにより顔が隠れないようにしてください。
- 唇をなめる、髪に触れる、横を向いて話す、発話中に常に頭を振る、話した後に口を閉じないなど、アクターの小さな動きは避けます。
- バックグラウンドノイズを避けます。スタッフは、ビデオ録画中に歩いたり話したりしないようにします。
- アクターが話しているときに他の人の声が録音されないようにします。

対話ビデオクリップを準備する方法

カスタムアバターを使用してリアルタイムの会話を作成する場合は、高品質の対話ビデオクリップを作成することが重要です。クリップは、カメラマンが質問をし、アクターが応答するという質問と回答の形式で構成されている必要があります。会話が完了するまで、質問と回答のペアをループさせます。単独で撮影している場合は、質問フェーズで他の誰かが質問をしていることを想像します。

各フェーズのヒントを以下に示します。

質問フェーズ

状態 0 を維持し、話しはせず、リラックスした状態でいます。
状態 0 に留まる際には、動かないということは避けてください。待っているかのように振舞います。
辛抱強く話を聞いているか、待っているかのように笑顔を保ちます。
頻繁にうなずかないようにしてください。
長さ: 各質問スロットは約 3 から 5 秒の長さにする必要があります。

回答フェーズ

時々自然なハンドジェスチャーを交えて自然に話します。
話すときは自然で一般的なジェスチャーを使用します。指差し、拍手、親指を立てるなどの意味のあるジェスチャーは避けます。
ジェスチャーは話し始めた後に開始し、話し終わる前に止めます。
長さ: 各回答スロットは約 5 秒の長さにする必要があります。

ビデオの合計の長さ

ビデオの合計の長さが 1 から 5 分になることを目指します。

データ要件

ビデオデータの基本的ないくつかの処理を行うと、モデルトレーニングの効率化に役立ちます。以下に例を示します。

文字が画面の中央にあり、ビデオ処理中にサイズと位置が一貫していることを確認します。明るさ、コントラストなどの各ビデオ処理パラメータは同じままで、変更されません。出力アバターのサイズ、位置、明るさ、コントラストは、トレーニングデータに存在するものを直接反映します。処理中やモデルの構築中に変更を適用することはありません。
クリップの開始と終了は、状態 0 に保つ必要があります。アクターは口を閉じて微笑み、前を向いている必要があります。ビデオは唐突ではなく、継続的なものである必要があります。

アバタートレーニングのビデオ録画ファイル形式: .mp4 または .mov。

解像度: 1920x1080 以上。

フレームレート/秒: 最小 25 FPS。

次の方法で共有

カスタムテキスト読み上げアバター用のビデオサンプルを録画する方法

レコーディング環境

背景の要件

照明の要件

デバイス

アクターの外見

録画するビデオクリップ

対話ビデオクリップを準備する方法

データ要件

フィードバック

その他のリソース

次の方法で共有

カスタム テキスト読み上げアバター用のビデオ サンプルを録画する方法

レコーディング環境

背景の要件

照明の要件

デバイス

アクターの外見

録画するビデオ クリップ

対話ビデオ クリップを準備する方法

データ要件

関連するコンテンツ

フィードバック

その他のリソース

カスタムテキスト読み上げアバター用のビデオサンプルを録画する方法

録画するビデオクリップ

対話ビデオクリップを準備する方法