Azure speech serviceのカスタムモデルで日本語の専門用語の発音を認識させたいのですが、対策としてどういった手法があり得るでしょうか?
お世話になります。 Azure speech serviceのカスタムモデルをバッチ文字起こしで使用したいです。そして、カスタムモデルが日本語の専門用語の発音を認識できるようにしたいです。
認識してほしい専門用語の例としては、IEEEを「i triple e」の発音として認識してほしいような場合が相当します。この例は以下サイトの情報によると、発音データと呼ばれる種類の学習用データを用いてカスタムモデルを作成すると対処できるタイプの専門用語らしいです。
下記のサイトによりますと、日本語の場合、custom speechの学習に使用できるデータとしては、 音声 + 人間がラベル付けしたトランスクリプト, プレーンテキスト, 構造化テキスト, 出力書式, フレーズリストが該当します。 https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/language-support?tabs=stt#:~:text=ja%2DJP,%E6%9B%B8%E5%BC%8F%0A%0A%E3%83%95%E3%83%AC%E3%83%BC%E3%82%BA%20%E3%83%AA%E3%82%B9%E3%83%88
フレーズリストはバッチ文字起こしでは使用できないそうで、対象のデータからは外すと https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/improve-accuracy-phrase-list?tabs=terminal&pivots=programming-language-python#:~:text=%E3%83%90%E3%83%83%E3%83%81%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%20API%20%E3%81%AF%E3%83%95%E3%83%AC%E3%83%BC%E3%82%BA%20%E3%83%AA%E3%82%B9%E3%83%88%E3%82%92%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%81%97%E3%81%A6%E3%81%84%E3%81%BE%E3%81%9B%E3%82%93 学習に使用できるデータは 音声 + 人間がラベル付けしたトランスクリプト, プレーンテキスト, 構造化テキスト, 出力書式になります。
この中には今回の目的に適した学習データである「発音データ」は含まれていません。 次善策としては、「音声 + 人間がラベル付けしたトランスクリプト」を使用した学習になるのでしょうか。 1点気になっているのですが、構造化データにもspeech:phoneticlexiconというプロパティーで発音に関してのデータを与えることができます。 https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-custom-speech-test-and-train#:~:text=%E6%9C%80%E5%A4%A7%2035%2C000%20%E9%A0%85%E7%9B%AE%E3%80%82-,speech%3Aphoneticlexicon,-%E6%B1%8E%E7%94%A8%E9%9F%B3%E7%B4%A0%E3%82%BB%E3%83%83%E3%83%88
これを使用しても今回の問題に対しての対処策にはなり得るのでしょうか?例えばIEEE/i triple eのように記載したら専門用語の認識能が改善するのでしょうか?
まとめますと、 ・IEEEを「i triple e」の発音として認識させたい状況下において、「発音データ」以外に使える学習データがあるのかどうか ・「音声 + 人間がラベル付けしたトランスクリプト」が第一候補と考えているが、コストの面で、可能であれば「構造化データ」のspeech:phoneticlexiconプロパティーで代用したいが可能か になります。お手数をおかけしますが、ご存じの方いらっしゃいましたら、教えていただければと思います。どうぞよろしくお願いいたします。