Custom Speech プロジェクトを作成する

[アーティクル]
09/19/2024

Custom Speech プロジェクトには、モデル、トレーニングとテストのデータセット、デプロイエンドポイントが含まれています。各プロジェクトはロケール別になっています。たとえば、米国の英語用のプロジェクトを作成することが考えられます。

プロジェクトの作成

Custom Speech プロジェクトを作成するには、これらの手順に従います。

Speech Studio にサインインします。
使用するサブスクリプションと Speech リソースを選択します。

重要

オーディオデータを使用してカスタムモデルをトレーニングする場合は、オーディオデータのトレーニングに使用する専用ハードウェアがあるリージョンを選択します。詳細については、リージョンテーブルの脚注を参照してください。
[Custom Speech]>[新しいプロジェクトを作成する] を選択します。
ウィザードの手順に従ってプロジェクトを作成します。

新しいプロジェクトの名前を選択するか、[プロジェクトに移動] を選択します。左側のパネルに、[音声データセット]、[カスタムモデルをトレーニングする]、[モデルをテストする]、[モデルをデプロイする] というメニュー項目が表示されます。

プロジェクトを作成するには、spx csr project create コマンドを使用します。次の手順に従って要求パラメーターを作成します。

必須の language パラメーターを設定します。プロジェクトのロケールと含まれているデータセットのロケールは同じであることが必要です。ロケールを後から変更することはできません。 Speech CLI language パラメーターは、JSON 要求と応答の locale プロパティに対応します。
必須の name パラメーターを設定します。これは、Speech Studio に表示される名前です。 Speech CLI name パラメーターは、JSON 要求と応答の displayName プロパティに対応します。

プロジェクトを作成する Speech CLI コマンドの例を次に示します。

spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"

応答本文は次の形式で返されます。

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

応答本文の最上位の self プロパティはプロジェクトの URI です。プロジェクトの評価、データセット、モデル、エンドポイント、文字起こしについての詳しい情報は、この URI を使用して取得します。また、プロジェクトの更新と削除にもこの URI を使用します。

プロジェクトに関する Speech CLI ヘルプを表示するには、次のコマンドを実行します。

spx help csr project

プロジェクトを作成するには、Speech to text REST API の Projects_Create 操作を使用します。次の手順に従って要求本文を作成します。

必須の locale プロパティを設定します。これは、含まれているデータセットのロケールにする必要があります。ロケールを後から変更することはできません。
必須の displayName プロパティを設定します。これは、Speech Studio に表示されるプロジェクト名です。

HTTP POST 要求は、以下の Projects_Create の例に示したように URI を使用して行います。 YourSubscriptionKey は実際の Speech リソースキーに、YourServiceRegion は実際の Speech リソースリージョンに置き換えたうえで、前述のように要求本文のプロパティを設定してください。

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"

応答本文は次の形式で返されます。

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

モデルを選択する

Custom Speech モデルを使用するには、次のようにいくつかの方法があります。

基本モデルには、さまざまなシナリオですぐに利用できる正確な音声認識があります。基本モデルは、精度と品質を向上させるために定期的に更新されます。基本モデルを使用する場合は、最新の既定の基本モデルを使用することをお勧めします。必要なカスタマイズ機能が古いモデルでしか使用できない場合は、古い基本モデルを選択できます。
カスタムモデルは基本モデルを拡張して、カスタムドメインのすべての領域で共有されるドメイン固有のボキャブラリを含みます。
カスタムドメインに複数の領域があり、それぞれが特定のボキャブラリを持つ場合は、複数のカスタムモデルを使用できます。

基本モデルで十分かどうかを確認するお勧めの方法の 1 つは、基本モデルから生成された文字起こしを分析し、同じ音声で人間が生成した文字起こしと比較することです。文字起こしを比較して、単語誤り率 (WER) スコアを取得できます。 WER スコアが高い場合は、誤って識別された単語を認識するようにカスタムモデルをトレーニングすることをお勧めします。

ボキャブラリがドメイン領域によって異なる場合は、複数のモデルを使用することをお勧めします。たとえば、オリンピックの解説者がレポートする各種競技は、それぞれが独自の用語に関連付けられています。オリンピック競技の各ボキャブラリは他の競技と大きく異なるため、競技に固有のカスタムモデルを作成すると、その特定の競技に関連する発話データを制限することで精度が向上します。その結果、モデルでは、照合するために関連性のないデータをふるいにかける必要がありません。それでも、トレーニングには十分な種類のトレーニングデータが必要です。アクセント、性別、年齢などが異なるさまざまな解説者の音声を含めます。

モデルの安定性とライフサイクル

Custom Speech を使用してエンドポイントにデプロイされた基本モデルまたはカスタムモデルは、更新を決定するまで固定されます。新しい基本モデルがリリースされても、音声認識の正確性と品質は一貫したままです。これにより、新しいモデルを使用することを決定するまで、特定のモデルの動作を固定できます。

独自のモデルをトレーニングするか、基本モデルのスナップショットを使用するかにかかわらず、期間限定でモデルを使用できます。詳細については、「モデルとエンドポイントのライフサイクル」を参照してください。

次の方法で共有

Custom Speech プロジェクトを作成する

プロジェクトの作成

モデルを選択する

モデルの安定性とライフサイクル

次のステップ

フィードバック

その他のリソース