音声をテキストに変換する
Azure AI 音声 SDK を使用した音声翻訳のパターンは、音声認識に似ていますが、翻訳のソースとターゲットの言語に関する情報が追加されています。
SpeechTranslationConfig オブジェクトを使用して、Azure AI 音声リソースへの接続に必要な情報をカプセル化します。 具体的には、その "場所" と "キー" です。
SpeechTranslationConfig オブジェクトを使用して、音声認識言語 (入力音声を読み上げる言語) と翻訳対象の言語を指定することもできます。
必要に応じて、AudioConfig を使用して、変換される音声の入力ソースを定義します。 既定では、これが既定のシステムのマイクですが、音声ファイルを指定することもできます。
SpeechTranslationConfig と AudioConfig を使用して、TranslationRecognizer オブジェクトを作成します。 このオブジェクトは、Azure AI 音声の翻訳 API のプロキシ クライアントです。
TranslationRecognizer オブジェクトのメソッドを使用して、基になる API 関数を呼び出します。 たとえば、RecognizeOnceAsync() メソッドは、Azure AI 音声サービスを使って、1 つの発話を非同期的に翻訳します。
Azure AI 音声からの応答を処理します。 RecognizeOnceAsync() メソッドの場合、結果は次のプロパティを含む SpeechRecognitionResult オブジェクトになります。
- Duration
- OffsetInTicks
- プロパティ
- 理由
- ResultId
- Text
- 翻訳
操作が成功した場合、Reason プロパティには列挙値の RecognizedSpeech があり、Text プロパティには元の言語の音声テキストが含まれます。 また、Translations プロパティにアクセスすることもできます。これには翻訳のディクショナリが含まれます (英語の場合は "en" など、2 文字の ISO 言語コードがキーとして使われます)。