高精細音声とは (プレビュー)

[アーティクル]
10/24/2024

Note

現在、この機能はパブリックプレビュー段階にあります。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

Azure AI 音声は、ニューラルテキスト読み上げ高精細 (HD) 音声の導入により、テキスト読み上げテクノロジの分野で進化を続けています。 HD 音声は、コンテンツを理解し、入力テキスト内の感情を自動的に検出し、センチメントに合わせてリアルタイムで話すトーンを調整できます。 HD 音声は、ニューラル (および HD 以外の) 音声からの一貫した音声ペルソナを維持し、強化された機能を通じてさらに多くの価値を提供します。

ニューラルテキスト読み上げ HD 音声の主な機能

Azure AI 音声 HD の音声の主な機能を次に示します。

主要な機能	説明
人間のような音声生成	ニューラルテキスト読み上げ HD 音声では、ごく自然で人間らしい音声を生成できます。このモデルは、何百万時間もかけて多言語データでトレーニングされており、手動で調整することなく、入力テキストを正確に解釈し、適切な感情、ペース、リズムで音声を生成できます。
会話性	ニューラルテキスト読み上げ HD 音声では、自然な間や強調など、本物のような音声パターンを複製できます。会話テキストを指定すると、モデルは間や繋ぎ言葉などの一般的な音素を再現できます。生成された音声は、誰かがあなたと直接会話しているかのように聞こえます。
韻律のバリエーション	ニューラルテキスト読み上げ HD 音声では、各出力にわずかなバリエーションが導入され、リアル感が高められます。このようなバリエーションがあることで、人間の声が自然にバリエーションを示すように、音声がより自然に聞こえるようになります。
高忠実度	ニューラルテキスト読み上げ HD 音声の主な目的は、忠実度の高いオーディオを生成することです。システムによって生成される合成音声は、品質と自然性の両方で人間の音声を厳密に模倣できます。
バージョンコントロール	ニューラルテキスト読み上げ HD 音声では、それぞれ固有の基本モデルサイズとレシピを使用して、同じ音声の異なるバージョンをリリースします。これにより、新しい音声バリエーションを体験でき、特定のバージョンの音声を継続的に使用することもできます。

Azure AI 音声 HD の音声と他の Azure テキスト読み上げ音声の比較

Azure AI 音声 HD の音声は、他の Azure テキスト読み上げ音声とどのように比較されるでしょうか。特徴と機能の面で、どのような違いがあるでしょうか。

Azure AI 音声 HD の音声、Azure OpenAI HD の音声、Azure AI 音声の音声の機能の比較を次に示します。

機能	Azure AI 音声 HD の音声	Azure OpenAI HD の音声	Azure AI 音声の音声 (HD ではない)
リージョン	米国東部、東南アジア、西ヨーロッパ	米国中北部、スウェーデン中部	数十のリージョンで利用できます。リージョンの一覧を参照してください。
音声の数	12	6	500 より多い
多言語	いいえ (第一言語でのみ実行)	はい	はい (多言語音声にのみ適用)
SSML のサポート	SSML 要素のサブセットのサポート。	SSML 要素のサブセットのサポート。	Azure AI 音声での SSML の完全なセットのサポート。
開発オプション	Speech SDK、Speech CLI、REST API	Speech SDK、Speech CLI、REST API	Speech SDK、Speech CLI、REST API
デプロイオプション	クラウドのみ	クラウドのみ	クラウド、埋め込み、ハイブリッド、コンテナー。
リアルタイムまたはバッチ合成	リアルタイムのみ	リアルタイムおよびバッチ合成	リアルタイムおよびバッチ合成
待機時間	300 ミリ秒未満	500 ミリ秒を超える	300 ミリ秒未満
合成オーディオのサンプルレート	8、16、24、48 kHz	8、16、24、48 kHz	8、16、24、48 kHz
音声出力オーディオの形式	opus、mp3、pcm、truesilk	opus、mp3、pcm、truesilk	opus、mp3、pcm、truesilk

サポートされている Azure AI 音声 HD の音声

Azure AI 音声 HD の音声値は、voicename:basemodel:version の形式です。コロンの前の名前 (en-US-Ava など) は、音声ペルソナ名とその元のロケールです。基本モデルは、以降の更新でバージョン別に追跡されます。

現時点では、DragonHD は Azure AI 音声 HD の音声で使用できる唯一の基本モデルです。常に提供される最新バージョンの基本モデルを使用し、コードを変更する必要がないようにするには、LatestNeural バージョンを使用します。

たとえば、ペルソナ en-US-Ava の場合、次の HD 音声値を指定できます。

en-US-Ava:DragonHDLatestNeural: 今後提供される最新バージョンの基本モデルを常に使用します。

次の表に、現在使用可能な Azure AI 音声 HD の音声を示します。

ニューラル音声ペルソナ	HD の音声
de-DE-Seraphina	de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew	en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2	en-US-Andrew2:DragonHDLatestNeural
en-US-Aria	en-US-Aria:DragonHDLatestNeural
en-US-Ava	en-US-Ava:DragonHDLatestNeural
en-US-Brian	en-US-Brian:DragonHDLatestNeural
en-US-Davis	en-US-Davis:DragonHDLatestNeural
en-US-Emma	en-US-Emma:DragonHDLatestNeural
en-US-Emma2	en-US-Emma2:DragonHDLatestNeural
en-US-Jenny	en-US-Jenny:DragonHDLatestNeural
en-US-Steffan	en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru	ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen	zh-CN-Xiaochen:DragonHDLatestNeural

Azure AI 音声 HD の音声を使用する方法

HD の音声は、HD 以外の音声と同じ Speech SDK および REST API で使用できます。

Azure AI 音声 HD の音声を使用するときに考慮すべき重要な点を次に示します。

音声ロケール: 音声名のロケールは、元の言語と地域を示します。
基本モデル:
- HD の音声には、入力テキストを理解し、それに応じて話すパターンを予測する基本モデルが付属しています。各音声の可用性に応じて、目的のモデル (DragonHDLatestNeural など) を指定できます。
SSML 使用法: SSML で音声を参照するには、voicename:basemodel:version の形式を使用します。コロンの前の名前 (de-DE-Seraphina など) は、音声ペルソナ名とその元のロケールです。基本モデルは、以降の更新でバージョン別に追跡されます。
温度パラメーター:
- 温度の値は 0 から 1 の範囲の浮動小数点であり、出力のランダム性に影響を与えます。温度パラメーターを調整して、出力のバリエーションを制御することもできます。ランダム性が低いほど安定した結果が得られる一方で、ランダム性が高いほどバリエーションが増え、一貫性が低くなります。
- 温度が低いほどランダム性が低下し、予測どおりの出力を得やすくなります。温度が高いほどランダム性が高くなり、より多様な出力が得られます。既定の温度は 1.0 に設定されています。

SSML で Azure AI 音声 HD の音声を使用する方法の例を次に示します。

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Azure AI 音声 HD の音声に対してサポートされている SSML 要素とサポートされていない SSML 要素

音声合成マークアップ言語 (SSML) と入力テキストにより、テキスト読み上げ出力の構造、コンテンツ、その他の特性が決定されます。たとえば、SSML を使用して、段落、文、中断または一時停止、あるいは無音を定義できます。後でアプリケーションが処理するブックマークや口形素などのイベントタグを使用してテキストをラップできます。

Azure AI 音声 HD の音声では、他の Azure AI 音声音声でサポートされているすべての SSML 要素またはイベントがサポートされているわけではありません。特に注意すべき点として、Azure AI 音声 HD の音声ではワード境界イベントはサポートされていません。

Azure AI 音声 HD の音声でサポートされている SSML 要素とサポートされていない SSML 要素の詳細については、次の表を参照してください。 SSML 要素の使用方法については、音声合成マークアップ言語 (SSML) のドキュメントを参照してください。

SSML 要素	説明	Azure AI 音声 HD の音声でのサポート対象
`<voice>`	音声効果とオプション効果 (`eq_car` と `eq_telecomhp8k`) を指定します。	はい
`<mstts:express-as>`	読み上げのスタイルと役割を指定します。	いいえ
`<mstts:ttsembedding>`	パーソナル音声の `speakerProfileId` プロパティを指定します。	いいえ
`<lang xml:lang>`	読み上げ言語を指定します。	はい
`<prosody>`	ピッチ、コンター、レンジ、レート、ボリュームを調整します。	いいえ
`<emphasis>`	テキストの単語レベルの強勢を追加または削除します。	いいえ
`<audio>`	SSML ドキュメントに事前録音したオーディオを埋め込みます。	いいえ
`<mstts:audioduration>`	出力オーディオの時間を指定します。	いいえ
`<mstts:backgroundaudio>`	SSML ドキュメントにバックグラウンドオーディオを追加するか、オーディオファイルとテキスト読み上げをミックスします。	いいえ
`<phoneme>`	SSML ドキュメント内の発音を指定します。	いいえ
`<lexicon>`	SSML 内での複数エンティティの読み上げ方法を定義します。	はい (エイリアスのみをサポート)
`<say-as>`	要素のテキストのコンテンツタイプ (数値や日付など) を示します。	はい
`<sub>`	要素で囲んだテキストの代わりにエイリアス属性のテキスト値を発音する必要があることを示します。	はい
`<math>`	MathML を入力テキストとして使用して、出力オーディオ内で数学的表記を適切に発音します。	いいえ
`<bookmark>`	オーディオストリーム内の各マーカーのオフセットを取得します。	いいえ
`<break>`	単語間の間や句読の既定の動作をオーバーライドします。	いいえ
`<mstts:silence>`	テキストの前または後、または連続する 2 つの文の間に句読を挿入します。	いいえ
`<mstts:viseme>`	人が話す間の顔と口の位置を定義します。	いいえ
`<p>`	SSML ドキュメント内の段落を表します。	はい
`<s>`	SSML ドキュメント内の文を表します。	はい

Note

このガイドの前のセクションでは、Azure AI 音声 HD の音声を Azure OpenAI HD の音声とも比較しましたが、Azure AI 音声でサポートされる SSML 要素は Azure OpenAI 音声には適用されません。

次の方法で共有

高精細音声とは (プレビュー)

ニューラルテキスト読み上げ HD 音声の主な機能

Azure AI 音声 HD の音声と他の Azure テキスト読み上げ音声の比較

サポートされている Azure AI 音声 HD の音声

Azure AI 音声 HD の音声を使用する方法

Azure AI 音声 HD の音声に対してサポートされている SSML 要素とサポートされていない SSML 要素

フィードバック

その他のリソース

次の方法で共有

高精細音声とは (プレビュー)

ニューラル テキスト読み上げ HD 音声の主な機能

Azure AI 音声 HD の音声と他の Azure テキスト読み上げ音声の比較

サポートされている Azure AI 音声 HD の音声

Azure AI 音声 HD の音声を使用する方法

Azure AI 音声 HD の音声に対してサポートされている SSML 要素とサポートされていない SSML 要素

関連するコンテンツ

フィードバック

その他のリソース

ニューラルテキスト読み上げ HD 音声の主な機能