Azure speech serviceのカスタムモデルで日本語の専門用語の発音を認識させたいのですが、対策としてどういった手法があり得るでしょうか?

Masafumi Funakoshi 0 評価のポイント
2025-02-05T04:45:56.4533333+00:00

お世話になります。 Azure speech serviceのカスタムモデルをバッチ文字起こしで使用したいです。そして、カスタムモデルが日本語の専門用語の発音を認識できるようにしたいです。

認識してほしい専門用語の例としては、IEEEを「i triple e」の発音として認識してほしいような場合が相当します。この例は以下サイトの情報によると、発音データと呼ばれる種類の学習用データを用いてカスタムモデルを作成すると対処できるタイプの専門用語らしいです。

https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-custom-speech-test-and-train#:~:text=reference%20like%20%7B%40pet%7D-,%E3%83%88%E3%83%AC%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E7%94%A8%E3%81%AE%E7%99%BA%E9%9F%B3%E3%83%87%E3%83%BC%E3%82%BF,-%E5%B0%82%E9%96%80%E7%94%A8%E8%AA%9E%E3%82%84

下記のサイトによりますと、日本語の場合、custom speechの学習に使用できるデータとしては、 音声 + 人間がラベル付けしたトランスクリプト, プレーンテキスト, 構造化テキスト, 出力書式, フレーズリストが該当します。 https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/language-support?tabs=stt#:~:text=ja%2DJP,%E6%9B%B8%E5%BC%8F%0A%0A%E3%83%95%E3%83%AC%E3%83%BC%E3%82%BA%20%E3%83%AA%E3%82%B9%E3%83%88

フレーズリストはバッチ文字起こしでは使用できないそうで、対象のデータからは外すと https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/improve-accuracy-phrase-list?tabs=terminal&pivots=programming-language-python#:~:text=%E3%83%90%E3%83%83%E3%83%81%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%20API%20%E3%81%AF%E3%83%95%E3%83%AC%E3%83%BC%E3%82%BA%20%E3%83%AA%E3%82%B9%E3%83%88%E3%82%92%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%81%97%E3%81%A6%E3%81%84%E3%81%BE%E3%81%9B%E3%82%93 学習に使用できるデータは 音声 + 人間がラベル付けしたトランスクリプト, プレーンテキスト, 構造化テキスト, 出力書式になります。

この中には今回の目的に適した学習データである「発音データ」は含まれていません。 次善策としては、「音声 + 人間がラベル付けしたトランスクリプト」を使用した学習になるのでしょうか。 1点気になっているのですが、構造化データにもspeech:phoneticlexiconというプロパティーで発音に関してのデータを与えることができます。 https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/how-to-custom-speech-test-and-train#:~:text=%E6%9C%80%E5%A4%A7%2035%2C000%20%E9%A0%85%E7%9B%AE%E3%80%82-,speech%3Aphoneticlexicon,-%E6%B1%8E%E7%94%A8%E9%9F%B3%E7%B4%A0%E3%82%BB%E3%83%83%E3%83%88

これを使用しても今回の問題に対しての対処策にはなり得るのでしょうか?例えばIEEE/i triple eのように記載したら専門用語の認識能が改善するのでしょうか?

まとめますと、 ・IEEEを「i triple e」の発音として認識させたい状況下において、「発音データ」以外に使える学習データがあるのかどうか ・「音声 + 人間がラベル付けしたトランスクリプト」が第一候補と考えているが、コストの面で、可能であれば「構造化データ」のspeech:phoneticlexiconプロパティーで代用したいが可能か になります。お手数をおかけしますが、ご存じの方いらっしゃいましたら、教えていただければと思います。どうぞよろしくお願いいたします。

Azure
Azure
Microsoft が管理する世界のデータ センター ネットワークを介してアプリケーションとサービスを構築、配置、および管理するインフラストラクチャおよびクラウド コンピューティング プラットフォーム。
542 件の質問
0 件のコメント コメントはありません
{count} 件の投票

お客様の回答

回答は、質問作成者が [承諾された回答] としてマークできます。これは、ユーザーが回答が作成者の問題を解決したことを知るのに役立ちます。