この記事では、音声テキスト変換機能についてのよくあるご質問にお答えします。 疑問点への回答がここに見つからない場合は、その他のサポート オプションを確認してください。
全般
音声テキスト変換のカスタム モデルと基本モデルの違いは何ですか?
ベースライン音声テキスト変換モデルは Microsoft 所有のデータを使用してトレーニングされ、事前にクラウドにデプロイされています。 カスタム モデルを作成して使用すると、特定のアンビエント ノイズまたは言語がある環境によりよく合わせることができます。 工場の現場、車の中、または騒音の多い道路などでは、適合させた音響モデルが必要です。 生物学、物理学、放射線学、製品名、およびカスタムの頭字語などのトピックには、適合させた言語モデルが必要になることがあります。 カスタム モデルをトレーニングする場合は、特別な用語や語句の認識を向上させるために、関連テキストから始める必要があります。
基本モデルの使用はどこから開始できますか。
まず、Azure portal で Speech リソース キーとリージョンを取得します。 事前にデプロイされた基本モデルに対して REST 呼び出しを実行する方法については、REST API のドキュメントを参照してください。 WebSocket を使用する場合は、Speech SDK をダウンロードしてください。
カスタム音声モデルを常にビルドする必要はありますか。
いいえ。 アプリケーションが一般的な日常の言語を使用している場合、モデルをカスタマイズする必要はありません。 アプリケーションが背景ノイズのほんとどない環境で使用されている場合も、モデルをカスタマイズする必要はありません。
ベースライン モデルとカスタマイズしたモデルをポータルでデプロイし、それらに対して正確性テストを実行できます。 この機能を使用して、基本モデルとカスタム モデルの正確性を測定して比較できます。
データセットまたはモデルの処理が完了した場合にはそれをどのように知ることができますか。
現在、それを知る唯一の方法はテーブル内のモデルやデータ セットの状態を表示することです。 処理が完了すると、その状態は [成功] になります。
複数のモデルを作成できますか。
コレクション内のモデル数に制限はありません。
ミスをしてしまったことに気付きました。 進行中のデータのインポートやモデルの作成をキャンセルするにはどうすればよいですか。
現在、音響モデルや言語モデルの適応処理はロールバックできません。 インポートされたデータやモデルは、終了状態になれば削除できます。
各語句について、詳細な出力形式でいくつかの結果が得られます。 使用する方法の選択
別の結果 ("N-Best") の信頼度の値が高い場合でも、常に最初の結果を使用します。 音声サービスでは、最初の結果が最適であると見なされます。 また、音声が認識されなかった場合は、結果が空の文字列になることもあります。
その他の結果は、適していない可能性が高く、完全な大文字化や句読点が適用されていない可能性があります。 これらの結果は、リストから修正内容を選択するオプションをユーザーに提供したり、間違って認識されたコマンドを処理したりするなど、特別なシナリオで最も役立ちます。
複数の基本モデルがある理由は何ですか。
音声サービスでは、複数の基本モデルから選択できます。 各モデルの名前には、追加された日付が含まれています。 カスタム モデルのトレーニングを開始するときは、最適な精度を得られるように最新のモデルを使用してください。 新しいモデルを使用できるようになった後も、しばらくは以前の基本モデルを利用できます。 使用していたモデルは、廃止されるまで引き続き使用できます (「モデルとエンドポイントのライフサイクル」を参照)。 ただし、精度を高めるために、最新の基本モデルに切り替えることをお勧めします。
既存のモデル (モデル スタッキング) を更新できますか。
既存のモデルは更新できません。 解決策として、以前のデータセットを新しいデータセットと結合し、新たに調整してください。
古いデータセットと新しいデータセットは、単一の .zip ファイル (音響データの場合) または .txt ファイル (言語データの場合) に組み合わせて使用する必要があります。 適応が完了したら、新しく更新されたモデルを再デプロイして、新しいエンドポイントを取得します。
新しいバージョンの基本モデルが利用可能になると、デプロイは自動的に更新されますか。
デプロイは自動的には更新され "ません"。
モデルを適応させてデプロイした場合、既存のデプロイはそのまま残ります。 デプロイ済みのモデルを解除し、新しいバージョンの基本モデルを使用して再び適応させて再デプロイすると、精度を高めることができます。
基本モデルとカスタム モデルはしばらくすると廃止されます (「モデルとエンドポイントのライフサイクル」を参照)。
自分のモデルをダウンロードしてローカルで実行できますか。
カスタム モデルは Docker コンテナーでローカルに実行できます。
データセット、モデル、デプロイを別のリージョンまたはサブスクリプションにコピーまたは移動することはできますか。
Models_Copy REST API を使用して、カスタム モデルを別のリージョンまたはサブスクリプションにコピーできます。 データセットとデプロイはコピーできません。 別のサブスクリプションにもう一度データセットをインポートし、そこでモデル コピーを使用してエンドポイントを作成できます。
個人の要求はログに記録されますか。
既定では、要求は (音声と文字起こしのどちらにも) ログに記録されません。 必要であれば、カスタム エンドポイントを作成するときに、[Log content from this endpoint] (このエンドポイントからコンテンツをログに記録する) オプションを選択できます。 また、カスタム エンドポイントを作成することなく、Speech SDK で要求ごとにオーディオ ログを有効にすることもできます。 どちらの場合も、要求のオーディオと認識の結果は、セキュリティで保護されたストレージに格納されます。 Microsoft が所有するストレージを使用するサブスクリプションでは、30 日間使用できます。
[Log content from this endpoint](このエンドポイントからコンテンツをログに記録する) が有効になっているカスタム エンドポイントを使用している場合は、Speech Studio のデプロイ ページでログのファイルをエクスポートできます。 SDK を介してオーディオ ログが有効になっている場合は、API を呼び出してファイルにアクセスします。 API を使用して、いつでもログを削除することもできます。
ユーザーの要求は調整されますか。
詳細については、「Speech サービスのクォータと制限」を参照してください。
デュアル チャネル オーディオの料金はどのように課金されますか。
各チャネルを別々のファイルで個別に送信した場合、各ファイルのオーディオ継続時間ごとに課金されます。 チャネルを多重化して 1 つのファイルを送信すると、1 つのファイルの継続時間に対して課金されます。 料金の詳細については、Azure AI サービスの価格ページを参照してください。
重要
Custom Speech Service の使用について他にプライバシーに関する懸念がある場合は、いずれかのサポート チャネルにお問い合わせください。
コンカレンシーの向上
詳細については、「Speech サービスのクォータと制限」を参照してください。
データのインポート
データセットのサイズの制限とは何ですか、なぜ制限するのですか。
この制限は、HTTP アップロード用のファイルのサイズに対する制限が原因です。 実際の制限については、「Speech サービスのクォータと制限」を参照してください。 データを複数のデータセットに分割し、すべてを選択してモデルをトレーニングすることができます。
テキスト ファイルを zip に (圧縮) すれば、さらに大きなテキスト ファイルをアップロードできるでしょうか。
いいえ。 現時点では圧縮されていないテキスト ファイルのみが許可されます。
データ レポートが発話にエラーがあったと示しています。 どうすればよいですか。
ファイル内の発話の 100% をアップロードできなくても問題ありません。 音響または言語データセット内の発話の大部分 (95% 以上など) が正常にインポートされた場合、そのデータセットは使用可能と見なされます。 ただし、発話でエラーが発生した原因を理解してその問題を修正するよう試行することをお勧めします。 フォーマット エラーなどの一般的な問題は簡単に修正できます。
音響モデルの作成
どれくらいの量の音響データが必要ですか。
30 分から 1 時間の音響データから始めることをお勧めします
どのようなデータを収集したほうがよいですか。
できるだけアプリケーションのシナリオやユースケースに近いデータを収集してください。 データ コレクションはデバイス、環境、話者の種類の点でターゲット アプリケーションやユーザーと一致している必要があります。 一般的に、できるだけ広範囲の話者からデータを収集することをお勧めします。
音響データはどのように収集しますか。
スタンドアロンのデータ コレクション アプリケーションを作成するか、既製の録音ソフトウェアを使用できます。 また、オーディオ データを記録してそれを使用するバージョンのアプリケーションを作成することもできます。
適応データを自分で文字に起こす必要はありますか。
はい。 ご自身で文字に起こすか、プロの文字起こしサービスを利用してください。 プロの筆記者を好むユーザーもいれば、クラウドソーシングを使用したり、または自分でデータの文字起こしをするユーザーもいます。
オーディオ データを使用したカスタム モデルのトレーニングにはどのくらいの時間がかかりますか。
オーディオ データを使用したモデルのトレーニングには、時間がかかる可能性があります。 データの量によっては、カスタム モデルの作成に数日かかる場合があります。 1 週間以内に完了できない場合、サービスはトレーニング操作を中止し、モデルを失敗として報告することがあります。
一般に、専用ハードウェアが導入されているリージョンでは、Speech サービスで 1 日あたり約 10 時間のオーディオ データが処理されています。 テキストを使用したトレーニングは、高速で、通常は数分以内に完了します。
トレーニングに専用のハードウェアを使用できるリージョンのいずれかを使用します。 これらのリージョンでは、音声サービスのトレーニングのために最大 100 時間分の音声が使用されます。
正確性のテスト
ワード エラー率 (WER) とは何ですか。また、どのように計算されますか。
WER は、音声認識の評価メトリックです。 WER はエラー (挿入、削除、置換) の合計数から、参照する文字起こしの合計ワード数を除算して計算されます。 詳細については、「モデルを定量的にテストする」を参照してください。
正確性テストの結果が良好であることはどのように判断すればよいですか。
結果は基本モデルとカスタマイズしたモデルの比較を示します。 カスタマイズを価値あるものにするには、基本モデルを上回る結果を目標に設定してください。
改善があったかどうかを知るためにベース モデルの WER はどのように確認できますか。
オフライン テストの結果は、カスタム モデルのベースライン精度、およびベースラインからの改善を示します。
言語モデルの作成
アップロードする必要があるテキスト データの量はどれくらいですか。
アプリケーションで使用されているボキャブラリやフレーズが最初の言語モデルとどれくらい異なるかによって変わります。 すべての新しいワードについて、それらのワードの使用法の例をできるだけ多く提供すると便利です。 アプリケーションに使用されている一般的なフレーズについては、言語データにフレーズを含め、多数の例を提供すると、システムにそれらの用語もリッスンするよう伝えるため、便利です。 言語データセットには最低でも 100、通常は数百以上の発話があることが一般的です。 また、ある種類 のクエリが他よりも一般的である場合、その一般的なクエリの複数のコピーをデータセットに挿入できます。
単語のリストをアップロードするだけでよいのですか。
単語のリストをアップロードすると、それらがボキャブラリに追加されますが、それらの単語が通常どのように使用されるかはシステムに伝わりません。 すべての発話または発話の一部 (ユーザーが言いそうな文や語句) を指定すると、言語モデルはその新しい単語とその使用方法を学習します。 カスタム言語モデルは、システムに新しい単語を追加するだけでなく、新しいアプリケーションに対して既知の単語の確度を調整するのに便利です。 すべての発話を指定すると、システムがより学習できるようになります。