テキスト読み上げアバターの概要
テキスト読み上げアバターは、テキストをフォトリアリスティックな人間 (事前ビルド済みのアバターまたはカスタム テキスト読み上げアバター) が自然な音声で話すデジタル ビデオに変換します。 テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。 開発者は、API 経由でのテキスト読み上げアバターと統合されたアプリケーションのビルドや、Speech Studio のコンテンツ作成ツールを使用したコーディングなしでのビデオ コンテンツの作成ができます。
テキスト読み上げアバターの高度なニューラル ネットワーク モデルを使用して、ユーザーは責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバター ビデオを提供できます。
ヒント
コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio のテキスト読み上げアバター ツールを試してください。
アバター機能
テキスト読み上げアバター機能には、次のようなものが含まれます。
- Azure AI テキスト読み上げを活用して、テキストを自然な音声で話すフォトリアリスティックな人間のデジタル ビデオに変換します。
- 事前ビルド済みのアバターのコレクションを提供します。
- アバターの音声は、Azure AI テキスト読み上げによって生成されます。 詳細については、「アバターの音声と言語」を参照してください。
- バッチ合成 API またはリアルタイムで非同期にテキスト読み上げアバター ビデオを合成します。
- コーディングなしでビデオ コンテンツを作成するためのコンテンツ作成ツールを Speech Studio で提供します。
- Speech Studio のライブ チャット アバター ツールを使用して、リアルタイムのアバターの会話を有効にします。
テキスト読み上げアバターの高度なニューラル ネットワーク モデルを使用して、責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバター ビデオを提供できます。
アバターの音声と言語
アバターの音声は、事前ビルド済みのものから選択できます。 テキスト読み上げアバターの言語サポートは、テキスト読み上げの言語サポートと同じです。 詳細については、「音声サービスの言語と音声のサポート」を参照してください。 事前ビルド済みのテキスト読み上げアバターは、Speech Studio ポータルまたは API を介してアクセスできます。
合成ビデオの音声は、Azure AI Speech で利用可能な事前ビルド済みのニューラル音声、またはユーザーが選択したボイス タレントのカスタム ニューラル音声を使用できます。
アバター ビデオ出力
バッチ合成、リアルタイム合成のいずれも、解像度は 1920 x 1080、フレーム/秒 (FPS) は 25 です。 バッチ合成コーデックは、形式が mp4
の場合は h264、hevc、または av1 とすることができ、形式が webm
の場合はコードを vp9 または av1 に設定できます。vp9
の場合のみ、アルファ チャネルを含めることができます。 リアルタイム合成コーデックは h264 です。 ビデオ ビットレートは、バッチ合成とリアルタイム合成の両方の要求で構成できます。既定値は 2000000 です。構成の詳細については、サンプル コードをご覧ください。
バッチ合成 | リアルタイム合成 | |
---|---|---|
解像度 | 1920 x 1080 | 1920 x 1080 |
FPS | 25 | 25 |
Codec | h264/hevc/vp9/av1 | h264 |
カスタム テキスト読み上げアバター
独自の製品やブランド独自のカスタム テキスト読み上げアバターを作成できます。 10 分間のビデオ録画を行うだけで開始できます。 アクター用にカスタム ニューラル音声も作成することで、アバターは非常に写実的になります。 詳細については、「カスタム テキスト読み上げアバターとは」を参照してください。
カスタム ニューラル音声とカスタム テキスト読み上げアバターは、個別の機能です。 これらを個別に使用することも、一緒に使用することもできます。 テキスト読み上げアバターでカスタム ニューラル音声も使用する予定の場合は、カスタム ニューラル音声モデルをアバターがサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。
サンプル コード
テキスト読み上げアバターのサンプル コードは、GitHub で入手できます。 次のサンプルは、最も一般的なシナリオをカバーしています。
- バッチ合成 (REST)
- リアルタイム合成 (SDK)
- バックグラウンドでの Azure OpenAI とのライブ チャット (SDK)
- Azure OpenAI On Your Data を使用してライブ チャット アプリを作成するには、こちらのサンプル コードを参照してください ("On Your Data" を検索します)
価格
- アバターのリアルタイム セッション中またはバッチ コンテンツの作成中、テキスト読み上げ、音声変換、Azure OpenAI、またはその他の Azure サービスは個別に課金されます。
- テキスト読み上げアバター機能の課金のしくみについては、テキスト読み上げアバターの価格に関するメモを参照してください。
- 価格の詳細については、音声サービスの価格に関するページを参照してください。 アバターの価格は、東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国西部 2 など、この機能が利用可能なサービス地域でのみ表示されます。
利用可能な場所
テキスト読み上げアバター機能は、次のサービス地域でのみ利用できます: 東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国西部 2。
責任ある AI
Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。 詳細については、責任ある AI の透明性に関するメモと、音声とアバターのタレントの開示に関するページを参照してください。