テキスト読み上げアバターの概要

[アーティクル]
01/13/2025

テキスト読み上げアバターは、テキストをフォトリアリスティックな人間 (事前ビルド済みのアバターまたはカスタムテキスト読み上げアバター) が自然な音声で話すデジタルビデオに変換します。テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。開発者は、API 経由でのテキスト読み上げアバターと統合されたアプリケーションのビルドや、Speech Studio のコンテンツ作成ツールを使用したコーディングなしでのビデオコンテンツの作成ができます。

テキスト読み上げアバターの高度なニューラルネットワークモデルを使用して、ユーザーは責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバタービデオを提供できます。

ヒント

コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio のテキスト読み上げアバターツールを試してください。

アバター機能

テキスト読み上げアバター機能には、次のようなものが含まれます。

Azure AI テキスト読み上げを活用して、テキストを自然な音声で話すフォトリアリスティックな人間のデジタルビデオに変換します。
事前ビルド済みのアバターのコレクションを提供します。
アバターの音声は、Azure AI テキスト読み上げによって生成されます。詳細については、「アバターの音声と言語」を参照してください。
バッチ合成 API またはリアルタイムで非同期にテキスト読み上げアバタービデオを合成します。
コーディングなしでビデオコンテンツを作成するためのコンテンツ作成ツールを Speech Studio で提供します。
Speech Studio のライブチャットアバターツールを使用して、リアルタイムのアバターの会話を有効にします。

テキスト読み上げアバターの高度なニューラルネットワークモデルを使用して、責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバタービデオを提供できます。

アバターの音声と言語

アバターの音声は、事前ビルド済みのものから選択できます。テキスト読み上げアバターの言語サポートは、テキスト読み上げの言語サポートと同じです。詳細については、「音声サービスの言語と音声のサポート」を参照してください。事前ビルド済みのテキスト読み上げアバターは、Speech Studio ポータルまたは API を介してアクセスできます。

合成ビデオの音声は、Azure AI Speech で利用可能な事前ビルド済みのニューラル音声、またはユーザーが選択したボイスタレントのカスタムニューラル音声を使用できます。

アバタービデオ出力

バッチ合成、リアルタイム合成のいずれも、解像度は 1920 x 1080、フレーム/秒 (FPS) は 25 です。バッチ合成コーデックは、形式が mp4 の場合は h264、hevc、または av1 とすることができ、形式が webm の場合はコードを vp9 または av1 に設定できます。vp9 の場合のみ、アルファチャネルを含めることができます。リアルタイム合成コーデックは h264 です。ビデオビットレートは、バッチ合成とリアルタイム合成の両方の要求で構成できます。既定値は 2000000 です。構成の詳細については、サンプルコードをご覧ください。

	バッチ合成	リアルタイム合成
解像度	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

カスタムテキスト読み上げアバター

独自の製品やブランド独自のカスタムテキスト読み上げアバターを作成できます。 10 分間のビデオ録画を行うだけで開始できます。アクター用にカスタムニューラル音声も作成することで、アバターは非常に写実的になります。詳細については、「カスタムテキスト読み上げアバターとは」を参照してください。

カスタムニューラル音声とカスタムテキスト読み上げアバターは、個別の機能です。これらを個別に使用することも、一緒に使用することもできます。テキスト読み上げアバターでカスタムニューラル音声も使用する予定の場合は、カスタムニューラル音声モデルをアバターがサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。

サンプルコード

テキスト読み上げアバターのサンプルコードは、GitHub で入手できます。次のサンプルは、最も一般的なシナリオをカバーしています。

バッチ合成 (REST)
リアルタイム合成 (SDK)
バックグラウンドでの Azure OpenAI とのライブチャット (SDK)
Azure OpenAI On Your Data を使用してライブチャットアプリを作成するには、こちらのサンプルコードを参照してください ("On Your Data" を検索します)

価格

アバターのリアルタイムセッション中またはバッチコンテンツの作成中、テキスト読み上げ、音声変換、Azure OpenAI、またはその他の Azure サービスは個別に課金されます。
テキスト読み上げアバター機能の課金のしくみについては、テキスト読み上げアバターの価格に関するメモを参照してください。
価格の詳細については、音声サービスの価格に関するページを参照してください。アバターの価格は、東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2 など、この機能が利用可能なサービス地域でのみ表示されます。

利用可能な場所

テキスト読み上げアバター機能は、次のサービス地域でのみ利用できます: 東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2。

責任ある AI

Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。詳細については、責任ある AI の透明性に関するメモと、音声とアバターのタレントの開示に関するページを参照してください。

次の方法で共有

テキスト読み上げアバターの概要

アバター機能

アバターの音声と言語

アバタービデオ出力

カスタムテキスト読み上げアバター

サンプルコード

価格

利用可能な場所

責任ある AI

次のステップ

フィードバック

その他のリソース

次の方法で共有

テキスト読み上げアバターの概要

アバター機能

アバターの音声と言語

アバター ビデオ出力

カスタム テキスト読み上げアバター

サンプル コード

価格

利用可能な場所

責任ある AI

次のステップ

フィードバック

その他のリソース

アバタービデオ出力

カスタムテキスト読み上げアバター

サンプルコード