音声をテキストに変換する

3 分

Azure AI 音声 SDK を使用した音声翻訳のパターンは、音声認識に似ていますが、翻訳のソースとターゲットの言語に関する情報が追加されています。

SpeechTranslationConfig オブジェクトを使用して、Azure AI 音声リソースへの接続に必要な情報をカプセル化します。具体的には、その "場所" と "キー" です。
SpeechTranslationConfig オブジェクトを使用して、音声認識言語 (入力音声を読み上げる言語) と翻訳対象の言語を指定することもできます。
必要に応じて、AudioConfig を使用して、変換される音声の入力ソースを定義します。既定では、これが既定のシステムのマイクですが、音声ファイルを指定することもできます。
SpeechTranslationConfig と AudioConfig を使用して、TranslationRecognizer オブジェクトを作成します。このオブジェクトは、Azure AI 音声の翻訳 API のプロキシクライアントです。
TranslationRecognizer オブジェクトのメソッドを使用して、基になる API 関数を呼び出します。たとえば、RecognizeOnceAsync() メソッドは、Azure AI 音声サービスを使って、1 つの発話を非同期的に翻訳します。
Azure AI 音声からの応答を処理します。 RecognizeOnceAsync() メソッドの場合、結果は次のプロパティを含む SpeechRecognitionResult オブジェクトになります。
- Duration
- OffsetInTicks
- プロパティ
- 理由
- ResultId
- Text
- 翻訳

操作が成功した場合、Reason プロパティには列挙値の RecognizedSpeech があり、Text プロパティには元の言語の音声テキストが含まれます。また、Translations プロパティにアクセスすることもできます。これには翻訳のディクショナリが含まれます (英語の場合は "en" など、2 文字の ISO 言語コードがキーとして使われます)。

音声をテキストに変換する

フィードバック