音声認識と音声合成について
音声認識は、音声を受け取り、多くの場合テキストに変換することで、処理できるデータに変換します。 音声は、オーディオ ファイルに録音された音声の形式でも、マイクからのライブの音声でもかまいません。 単語にマップされている認識可能なパターンを特定するために、音声パターンがオーディオで分析されます。 これを実現するため、ソフトウェアでは通常、次のような複数のモデルが使われます。
- オーディオ信号を音素 (特定の音の表現) に変換する "音響" モデル。
- 音素を単語にマップする "言語" モデル。通常は、音素に基づいて最も可能性の高い単語の並びを予測する統計アルゴリズムが使用されます。
通常、認識された単語はテキストに変換され、それを次のようなさまざまな目的に使用できます。
- 録画またはライブの動画のクローズド キャプションの提供
- 電話または会議の音声テキストの作成
- メモの自動ディクテーション
- さらなる処理の対象となるユーザー入力の特定
音声合成は、通常、テキストを音声に変換することによる、データの音声化に関係します。 音声合成ソリューションには通常、次の情報が必要となります。
- 読み上げるテキスト
- 音声化に使われる音声
システムによる音声の合成では通常、テキストが "トークン化" されて個々の単語に分割され、各単語に音声の音が割り当てられます。 次に、音声のトランスクリプトが "韻律" 単位 (フレーズ、句、文など) に分割され、オーディオ形式に変換される音素が作成されます。 その後、これらの音素はオーディオとして合成され、特定の音声、話す速さ、ピッチ、音量を割り当てることができます。
音声合成の出力は、次のようなさまざまな目的で使用できます。
- ユーザー入力に対する音声応答の生成
- 電話システムの音声メニューの作成
- ハンズフリーのシナリオでのメールやテキスト メッセージの読み上げ
- 公共の場所 (駅や空港など) でのアナウンスの放送