音声モデルをカスタマイズする

[アーティクル]
10/09/2024

Note

発音トレーニングを含む音声モデルのカスタマイズは、Video Indexer Azure 試用版アカウントと Resource Manager アカウントでのみサポートされます。クラシックアカウントではサポートされていません。アカウントの種類を無償で更新する方法のガイダンスについては、「 Azure AI Video Indexer アカウントの更新を参照してください。カスタム言語エクスペリエンスの使用に関するガイダンスについては、「言語モデルをカスタマイズするを参照してください。

Azure AI Video Indexer を使用すると、音声モデルの作成に使用されるデータセットをアップロードすることで、音声認識をカスタマイズするカスタム音声モデルを作成できます。この記事では、Video Indexer Web サイトを使った手順を説明します。「API を使用して音声モデルをカスタマイズする」で説明しているように API を使用することもできます。

カスタム音声モデルの詳細な概要とベストプラクティスについては、「Azure AI Video Indexer を使用して音声モデルをカスタマイズする」を参照してください。

前提条件

Speech モデルトレーニングのベストプラクティスガイドをお読みください。
Azure アカウント
Azure AI Video Indexer アカウント

Web ポータル
API

データセットを作成する

すべてのカスタムモデルにデータセットを含める必要がある場合は、データセットを作成および管理する方法のプロセスから始めます。

Model のカスタマイズ ボタンを選択します。
[ Speech (新規) タブを選択します。
[データセット アップロード] を選択。
Dataset の種類ドロップダウンメニューから Plain text または Pronunciation を選択します。すべての音声モデルにはプレーンテキストデータセットが必要であり、必要に応じて発音データセットを持たせることができます。
Browseを選択し、データセットファイルを選択します。選択できるのは 1 つだけです。
モデルの Language を選択します。このモデルでのインデックス作成を計画しているメディアファイルで読み上げる言語を選択します。データセット名にはファイルの名前が事前に設定されていますが、名前は変更できます。
必要に応じて、データセットの説明を追加できます。これは、複数のデータセットが必要な場合に、各データセットを区別するのに役立ちます。
[アップロード] を選択します。データセットの作成が完了したら、それを使用して新しいモデルのトレーニングと作成を行うことができます。

データセットの確認と更新

データセットとそのプロパティは、次の方法で表示できます。

データセット名をクリックする
データセットの上にマウスポインターを置く
省略記号の選択

次に、 View Dataset を選択します。

その後、データセットの名前、説明、言語、および状態に加えて、次のプロパティを表示できます。

行数: ファイル内の行の合計数うち正常に読み込まれた行の数を示します。ファイル全体が正常に読み込まれた場合、数値は一致します (たとえば、10/10 を正規化)。数値が一致しない場合 (たとえば、正規化された 10 行中 7 行) は、一部の行のみが正常に読み込まれ、残りの行にエラーが発生したことを意味します。エラーの一般的な原因は、発音ファイル内の各単語間にタブを配置しないなど、行の書式設定の問題です。トレーニング記事のプレーンテキストと発音データを見直すことは、問題発見に役立つはずです。原因をトラブルシューティングするには、レポートに含まれているエラーの詳細を確認します。 [レポートの表示] を選択すると、正常に読み込まれない行 (errorKind) に関するエラーの詳細が表示されます。これは、[レポート] タブを選択して表示することもできます。

データセット ID: 各データセットには一意の GUID があります。これは、データセットを参照する操作に API を使用する場合に必要です。

プレーンテキスト (正規化): 読み込まれたデータセットファイルの正規化されたテキストが含まれます。正規化されたテキストとは、フォーマットされていないプレーンな形式で認識されたテキストのことです。

詳細の編集: データセットの名前または説明を編集するには、データセットの上にマウスポインターを置いたときに省略記号を選択し、[詳細の編集] を選択します。これで、データセットの名前と説明を編集できるようになります。

Note

データセットがアップロードされると、データセット内のデータを編集または更新することはできません。データセット内のデータを編集または更新する必要がある場合は、データセットをダウンロードし、編集を実行し、ファイルを保存して、新規のデータセットファイルをアップロードします。

ダウンロード: データセットファイルをダウンロードするには、データセットの上にマウスポインターを置いたときに省略記号を選択し、[ダウンロード] を選択します。または、データセットを表示するときに、[ダウンロード] を選択し、データセットファイルまたはアップロードレポートを JSON 形式でダウンロードすることもできます。

削除: データセットを削除するには、データセットの上にマウスポインターを置いたときに省略記号を選択し、[削除] を選択します。

カスタム音声モデルを作成する

データセットは、モデルの作成とトレーニングで使用されます。プレーンテキストデータセットを作成したら、カスタム音声モデルを作成して使用を開始できます。

カスタム音声モデルを作成して使用する場合は、次の点に注意してください:

新しいモデルには、少なくとも 1 つのプレーンテキストデータセットを含める必要があります。また、複数のプレーンテキストデータセットを含めることができます。
発音データセットを含めるかどうかは任意であり、複数含めることはできません。
モデルが作成されると、そのモデルにデータセットを追加したり、データセットに変更を加えたりすることはできません。データセットを追加または変更する必要がある場合は、新しいモデルを作成します。
カスタム音声モデルを使用してビデオのインデックスを作成し、モデルを削除した場合、インデックスの再作成を実行しない限り、トランスクリプトは影響を受けません。
カスタムモデルのトレーニングに使用されたデータセットを削除した場合、音声モデルはデータセットによって既にトレーニングされているため、音声モデルが削除されるまで引き続き使用されます。
カスタムモデルを削除しても、モデルを使用して既にインデックスが作成されているビデオの文字起こしには影響しません。

モデルをトレーニングする

Note

一旦モデルが作成されると、データセットを追加することはできません。モデルには、同じ言語のデータセットのみを含めることができます。

モデルをトレーニングするには、データセットタブを使うのと、モデルタブを使うのと 2 つの方法があります。

[データセット] タブを使用してモデルをトレーニングする

データセットの一覧を表示します。
プレーンテキストデータセットを選択します。 新しいモデルのトレーニング上のアイコンを選択できます。
[新しいモデルのトレーニング 選択します。
モデルの名前、言語を入力し、必要に応じて説明を追加します。
Datasets タブを選択します
モデルに含めるデータセットを選択します。
[作成とトレーニング] を選択します。

[モデル] タブを使用してモデルをトレーニングする

[モデル] タブを選択します。
[新しいモデル トレーニング アイコンを選択します。
モデルの一部にするデータセットを選択します。
モデルの名前、言語を入力し、必要に応じて説明を追加します。
[データセット] タブを選択します。
モデルに含めるデータセットを選択します。
[作成とトレーニング] を選択します。

モデルの確認と更新

モデルの表示: モデルとそのプロパティを表示するには、モデルの名前をクリックするか、モデルの上にマウスポインターを置き、省略記号をクリックして [モデルの表示] を選択します。

その後、[詳細] タブに、モデルの名前、説明、言語、および状態に加えて、次のプロパティが表示されます。

モデル ID: 各モデルには一意の GUID があり、モデルを参照する操作に API を使用する場合に必要です。

作成日: モデルが作成された日付。

詳細の編集: モデルの名前または説明を編集するには、モデルの上にマウスポインターを置いたときに省略記号を選択し、[詳細の編集] を選択します。これで、モデルの名前と説明を編集できるようになります。

Note

編集できるのは、モデルの名前と説明だけです。データセットに変更を加えたり、データセットを追加したりする場合は、新しいモデルを作成する必要があります。

削除: モデルを削除するには、データセットの上にマウスポインターを置いたときに省略記号を選択し、[削除] を選択します。

含まれているデータセット: [含まれるデータセット] タブを選択して、モデルのデータセットを表示します。

ビデオのインデックス作成時にカスタム言語モデルを使用する

カスタム言語モデルは、インデックス作成ジョブに既定では使用されないため、インデックスのアップロードプロセス中に選択する必要があります。

アップロードプロセス中に、 language ドロップダウンメニューからカスタム言語モデルソースを選択します。
[アップロード] を選択します。

カスタムモデルでビデオのインデックスを再作成する場合も、同じ手順が適用されます。

Note

音声モデル要求で使用されるパラメーターの一部の説明を次に示します。

名前	「」と入力します	説明
`displayName`	string	データセットまたはモデルに希望する名前。
`locale`	string	データセットまたはモデルの言語コード。完全な一覧については、言語サポートに関する記事を参照してください。
`kind`	integer	プレーンテキストデータセットの場合は 0、発音データセットの場合は 1。
`description`	string	データセットまたはモデルの省略可能な説明。
`contentUrl`	uri	データセットの作成で使用されるソースファイルの URL。
`customProperties`	object	データセットまたはモデルの省略可能なプロパティ。

音声データセットを作成する

Create Speech Dataset 要求は、音声モデルをトレーニングするためのデータセットを作成します。この要求でデータセットを作成するために使用するファイルをアップロードします。データセットの内容は、作成後は変更することができません。

アップロードするテキストファイルへの URL を含む、要求本文でパラメーターを定義します。説明とカスタムプロパティのフィールドは省略可能です。要求本文の例を次に示します。

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

応答の例

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

音声モデルを作成する

Create Speech Model 要求は、ビデオの文字起こし精度を向上させるために使用できるカスタム音声モデルを作成してトレーニングします。少なくとも 1 つのプレーンテキストデータセットを含む必要があります。必要に応じて、発音データセットを含めることができます。モデルのデータセットを作成後に追加または更新することはできないため、関連するすべてのデータセットファイルを含めて作成してください。

モデルに含めるデータセットまたはデータセットの文字列の一覧を含む、要求本文でパラメーターを定義します。説明とカスタムプロパティのフィールドは省略可能です。これは、要求本文のサンプルです。

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

応答の例

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

音声データセットを取得する

Get Speech Dataset API は、指定されたデータセットに関する情報を返します。

応答の例

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

音声データセットファイルを取得する

Get Speech Dataset Files 要求は、指定されたデータセットのファイルとメタデータを返します。

応答の例

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

指定したアカウントデータセットを取得する

Get Speech Datasets 要求は、指定されたすべてのアカウントデータセットに関する情報を返します。

応答の例

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

指定した音声モデルを取得する

Get Speech Model API は、指定したモデルに関する情報を返します。

応答の例

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

指定したアカウントの音声モデルを取得する

Get Speech Models API は、指定されたアカウント内のすべてのモデルに関する情報を返します。

応答の例

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

音声データセットを削除する

Delete Speech Dataset API は、指定したデータセットを削除します。削除されたデータセットでトレーニングされたモデルは、モデルが削除されるまで引き続き使用できます。インデックス作成またはトレーニングに使用されているデータセットは削除できません。

応答の例

データセットが正常に削除されたときに返されるコンテンツはありません。

音声モデルを削除する

Delete Speech Model API は、指定された音声モデルを削除します。インデックス作成またはトレーニングで使用されている間は、モデルを削除できません。

回答

音声モデルが正常に削除されたときに返されるコンテンツはありません。

次の方法で共有

音声モデルをカスタマイズする

前提条件

データセットを作成する

データセットの確認と更新

カスタム音声モデルを作成する

モデルをトレーニングする

[データセット] タブを使用してモデルをトレーニングする

[モデル] タブを使用してモデルをトレーニングする

モデルの確認と更新

ビデオのインデックス作成時にカスタム言語モデルを使用する

音声データセットを作成する

応答の例

音声モデルを作成する

応答の例

音声データセットを取得する

応答の例

音声データセットファイルを取得する

応答の例

指定したアカウントデータセットを取得する

応答の例

指定した音声モデルを取得する

応答の例

指定したアカウントの音声モデルを取得する

応答の例

音声データセットを削除する

応答の例

音声モデルを削除する

回答

フィードバック

その他のリソース