Azure での音声の処理を開始する

3 分

Microsoft Azure は、Azure AI 音声サービスを通して音声認識と音声合成機能を提供しており、これは以下を含む多数の機能をサポートしています。

音声テキスト変換
テキスト読み上げ

Note

このモジュールでは、"音声テキスト変換" と "テキスト読み上げ" 機能について説明します。別のモジュールでは、Azure AI サービス内の音声翻訳について説明します。

音声テキスト変換

Azure AI Speech to text API を使用すると、リアルタイムまたはバッチで音声をテキスト形式に文字起こしすることができます。文字起こしのオーディオソースには、マイクまたはオーディオファイルからのリアルタイムオーディオストリームを使用できます。

音声テキスト変換 API で使用されるモデルは、Microsoft によってトレーニングされたユニバーサル言語モデルに基づいています。モデルのデータは Microsoft が所有し、Microsoft Azure にデプロイされています。このモデルは、会話とディクテーションという 2 つのシナリオに対して最適化されています。 Microsoft の事前構築済みモデルでは必要なものが提供されていない場合は、音響、言語、発音など、独自のカスタムモデルを自分で作成してトレーニングすることもできます。

リアルタイムの文字起こし:リアルタイムの音声テキスト変換を使用すると、オーディオストリーム内のテキストを文字起こしすることができます。リアルタイムの文字起こしは、プレゼンテーション、デモ、またはその他の人が話しているシナリオに対して使用できます。

リアルタイムの文字起こしが機能するためには、アプリケーションでマイクやオーディオファイルなどのその他の音声入力ソースからの受信オーディオを取得する必要があります。アプリケーションコードによってオーディオをサービスにストリームし、文字起こしされたテキストを返します。

バッチ文字起こし:すべての音声テキスト変換シナリオがリアルタイムであるとはいえません。オーディオ録音がファイル共有、リモートサーバー、または Azure Storage に保存されている場合もあります。 Shared Access Signature (SAS) URI を持つオーディオファイルを示し、文字起こし結果を非同期的に受信できます。

バッチジョブは "ベストエフォートベース" でスケジュールされるため、バッチ文字起こしは非同期で実行する必要があります。通常、ジョブの実行は要求から数分以内に開始されますが、ジョブが実行状態にいつ変わるかは推定できません。

テキスト読み上げ

テキスト読み上げ API を使用すると、テキスト入力を音声に変換し、コンピューターのスピーカーから直接再生するか、オーディオファイルに書き込むことができます。

音声合成による声:テキスト読み上げ API を使用する場合、テキストの音声化に使用する音声を指定できます。この機能によって、音声合成ソリューションをカスタマイズし、特定の個性を与える柔軟性がもたらされます。

このサービスには、"ニューラルネットワーク" を活用してイントネーションに関する音声合成の一般的な制限を克服し、より自然な響きの声をもたらす "ニューラル" 音声を含む、複数の言語と地域の発音をサポートする複数の事前定義された音声が含まれます。カスタム音声を開発し、テキスト読み上げ API で使用することもできます

サポートされている言語

音声テキスト変換 API とテキスト読み上げ API の両方で、さまざまな言語がサポートされています。サポートされている言語の詳細については、以下のリンクを使用してください。

Azure での音声の処理を開始する

音声テキスト変換

テキスト読み上げ

サポートされている言語

フィードバック