Azure speech serviceのカスタムモデルで日本語の専門用語の発音を認識させたいのですが、対策としてどういった手法があり得るでしょうか？

Question

お世話になります。 Azure speech serviceのカスタムモデルをバッチ文字起こしで使用したいです。そして、カスタムモデルが日本語の専門用語の発音を認識できるようにしたいです。

認識してほしい専門用語の例としては、IEEEを「i triple e」の発音として認識してほしいような場合が相当します。この例は以下サイトの情報によると、発音データと呼ばれる種類の学習用データを用いてカスタムモデルを作成すると対処できるタイプの専門用語らしいです。

https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-custom-speech-test-and-train#:~:text=reference%20like%20%7B%40pet%7D-,%E3%83%88%E3%83%AC%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E7%94%A8%E3%81%AE%E7%99%BA%E9%9F%B3%E3%83%87%E3%83%BC%E3%82%BF,-%E5%B0%82%E9%96%80%E7%94%A8%E8%AA%9E%E3%82%84

下記のサイトによりますと、日本語の場合、custom speechの学習に使用できるデータとしては、音声 + 人間がラベル付けしたトランスクリプト, プレーンテキスト, 構造化テキスト, 出力書式, フレーズリストが該当します。 https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/language-support?tabs=stt#:~:text=ja%2DJP,%E6%9B%B8%E5%BC%8F%0A%0A%E3%83%95%E3%83%AC%E3%83%BC%E3%82%BA%20%E3%83%AA%E3%82%B9%E3%83%88

フレーズリストはバッチ文字起こしでは使用できないそうで、対象のデータからは外すと https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/improve-accuracy-phrase-list?tabs=terminal&pivots=programming-language-python#:~:text=%E3%83%90%E3%83%83%E3%83%81%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%20API%20%E3%81%AF%E3%83%95%E3%83%AC%E3%83%BC%E3%82%BA%20%E3%83%AA%E3%82%B9%E3%83%88%E3%82%92%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%81%97%E3%81%A6%E3%81%84%E3%81%BE%E3%81%9B%E3%82%93 学習に使用できるデータは音声 + 人間がラベル付けしたトランスクリプト, プレーンテキスト, 構造化テキスト, 出力書式になります。

この中には今回の目的に適した学習データである「発音データ」は含まれていません。次善策としては、「音声 + 人間がラベル付けしたトランスクリプト」を使用した学習になるのでしょうか。 1点気になっているのですが、構造化データにもspeech:phoneticlexiconというプロパティーで発音に関してのデータを与えることができます。 https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-custom-speech-test-and-train#:~:text=%E6%9C%80%E5%A4%A7%2035%2C000%20%E9%A0%85%E7%9B%AE%E3%80%82-,speech%3Aphoneticlexicon,-%E6%B1%8E%E7%94%A8%E9%9F%B3%E7%B4%A0%E3%82%BB%E3%83%83%E3%83%88

これを使用しても今回の問題に対しての対処策にはなり得るのでしょうか？例えばIEEE/i triple eのように記載したら専門用語の認識能が改善するのでしょうか？

まとめますと、・IEEEを「i triple e」の発音として認識させたい状況下において、「発音データ」以外に使える学習データがあるのかどうか・「音声 + 人間がラベル付けしたトランスクリプト」が第一候補と考えているが、コストの面で、可能であれば「構造化データ」のspeech:phoneticlexiconプロパティーで代用したいが可能かになります。お手数をおかけしますが、ご存じの方いらっしゃいましたら、教えていただければと思います。どうぞよろしくお願いいたします。

次の方法で共有

Azure speech serviceのカスタムモデルで日本語の専門用語の発音を認識させたいのですが、対策としてどういった手法があり得るでしょうか？

お客様の回答