データセットを作成する
すべてのカスタム モデルにデータセットを含める必要がある場合は、データセットを作成および管理する方法のプロセスから始めます。
- Model のカスタマイズ ボタンを選択します。
- [ Speech (新規) タブを選択します。
- [データセット アップロード] を選択。
- Dataset の種類ドロップダウン メニューから Plain text または Pronunciation を選択します。 すべての音声モデルにはプレーン テキスト データセットが必要であり、必要に応じて発音データセットを持たせることができます。
- Browseを選択し、データセット ファイルを選択します。 選択できるのは 1 つだけです。
- モデルの Language を選択します。 このモデルでのインデックス作成を計画しているメディア ファイルで読み上げる言語を選択します。 データセット名にはファイルの名前が事前に設定されていますが、名前は変更できます。
- 必要に応じて、データセットの説明を追加できます。 これは、複数のデータセットが必要な場合に、各データセットを区別するのに役立ちます。
- [アップロード] を選択します。 データセットの作成が完了したら、それを使用して新しいモデルのトレーニングと作成を行うことができます。
データセットの確認と更新
データセットとそのプロパティは、次の方法で表示できます。
- データセット名をクリックする
- データセットの上にマウス ポインターを置く
- 省略記号の選択
次に、 View Dataset を選択します。
その後、データセットの名前、説明、言語、および状態に加えて、次のプロパティを表示できます。
行数: ファイル内の行の合計数うち正常に読み込まれた行の数を示します。 ファイル全体が正常に読み込まれた場合、数値は一致します (たとえば、10/10 を正規化)。 数値が一致しない場合 (たとえば、正規化された 10 行中 7 行) は、一部の行のみが正常に読み込まれ、残りの行にエラーが発生したことを意味します。 エラーの一般的な原因は、発音ファイル内の各単語間にタブを配置しないなど、行の書式設定の問題です。 トレーニング記事のプレーンテキストと発音データを見直すことは、問題発見に役立つはずです。 原因をトラブルシューティングするには、レポートに含まれているエラーの詳細を確認します。 [レポートの表示] を選択すると、正常に読み込まれない行 (errorKind) に関するエラーの詳細が表示されます。 これは、[レポート] タブを選択して表示することもできます。
データセット ID: 各データセットには一意の GUID があります。これは、データセットを参照する操作に API を使用する場合に必要です。
プレーン テキスト (正規化): 読み込まれたデータセット ファイルの正規化されたテキストが含まれます。 正規化されたテキストとは、フォーマットされていないプレーンな形式で認識されたテキストのことです。
詳細の編集: データセットの名前または説明を編集するには、データセットの上にマウス ポインターを置いたときに省略記号を選択し、[詳細の編集] を選択します。 これで、データセットの名前と説明を編集できるようになります。
Note
データセットがアップロードされると、データセット内のデータを編集または更新することはできません。 データセット内のデータを編集または更新する必要がある場合は、データセットをダウンロードし、編集を実行し、ファイルを保存して、新規のデータセット ファイルをアップロードします。
ダウンロード: データセット ファイルをダウンロードするには、データセットの上にマウス ポインターを置いたときに省略記号を選択し、[ダウンロード] を選択します。 または、データセットを表示するときに、[ダウンロード] を選択し、データセット ファイルまたはアップロード レポートを JSON 形式でダウンロードすることもできます。
削除: データセットを削除するには、データセットの上にマウス ポインターを置いたときに省略記号を選択し、[削除] を選択します。
カスタム音声モデルを作成する
データセットは、モデルの作成とトレーニングで使用されます。 プレーンテキスト データセットを作成したら、カスタム音声モデルを作成して使用を開始できます。
カスタム音声モデルを作成して使用する場合は、次の点に注意してください:
- 新しいモデルには、少なくとも 1 つのプレーン テキスト データセットを含める必要があります。また、複数のプレーン テキスト データセットを含めることができます。
- 発音データセットを含めるかどうかは任意であり、複数含めることはできません。
- モデルが作成されると、そのモデルにデータセットを追加したり、データセットに変更を加えたりすることはできません。 データセットを追加または変更する必要がある場合は、新しいモデルを作成します。
- カスタム音声モデルを使用してビデオのインデックスを作成し、モデルを削除した場合、インデックスの再作成を実行しない限り、トランスクリプトは影響を受けません。
- カスタム モデルのトレーニングに使用されたデータセットを削除した場合、音声モデルはデータセットによって既にトレーニングされているため、音声モデルが削除されるまで引き続き使用されます。
- カスタム モデルを削除しても、モデルを使用して既にインデックスが作成されているビデオの文字起こしには影響しません。
モデルをトレーニングする
Note
一旦モデルが作成されると、データセットを追加することはできません。
モデルには、同じ言語のデータセットのみを含めることができます。
モデルをトレーニングするには、データセット タブを使うのと、モデル タブを使うのと 2 つの方法があります。
[データセット] タブを使用してモデルをトレーニングする
- データセットの一覧を表示します。
- プレーンテキスト データセットを選択します。 新しいモデルのトレーニング上のアイコンを選択できます。
- [新しいモデルのトレーニング 選択します。
- モデルの名前、言語を入力し、必要に応じて説明を追加します。
- Datasets タブを選択します
- モデルに含めるデータセットを選択します。
- [作成とトレーニング] を選択します。
[モデル] タブを使用してモデルをトレーニングする
- [モデル] タブを選択します。
- [新しいモデル トレーニング アイコンを選択します。
- モデルの一部にするデータセットを選択します。
- モデルの名前、言語を入力し、必要に応じて説明を追加します。
- [データセット] タブを選択します。
- モデルに含めるデータセットを選択します。
- [作成とトレーニング] を選択します。
モデルの確認と更新
モデルの表示: モデルとそのプロパティを表示するには、モデルの名前をクリックするか、モデルの上にマウス ポインターを置き、省略記号をクリックして [モデルの表示] を選択します。
その後、[詳細] タブに、モデルの名前、説明、言語、および状態に加えて、次のプロパティが表示されます。
モデル ID: 各モデルには一意の GUID があり、モデルを参照する操作に API を使用する場合に必要です。
作成日: モデルが作成された日付。
詳細の編集: モデルの名前または説明を編集するには、モデルの上にマウス ポインターを置いたときに省略記号を選択し、[詳細の編集] を選択します。 これで、モデルの名前と説明を編集できるようになります。
Note
編集できるのは、モデルの名前と説明だけです。 データセットに変更を加えたり、データセットを追加したりする場合は、新しいモデルを作成する必要があります。
削除: モデルを削除するには、データセットの上にマウス ポインターを置いたときに省略記号を選択し、[削除] を選択します。
含まれているデータセット: [含まれるデータセット] タブを選択して、モデルのデータセットを表示します。
ビデオのインデックス作成時にカスタム言語モデルを使用する
カスタム言語モデルは、インデックス作成ジョブに既定では使用されないため、インデックスのアップロードプロセス中に選択する必要があります。
- アップロード プロセス中に、 language ドロップダウン メニューからカスタム言語モデル ソースを選択します。
- [アップロード] を選択します。
カスタム モデルでビデオのインデックスを再作成する場合も、同じ手順が適用されます。
Note
発音トレーニングを含む音声モデルのカスタマイズは、Video Indexer Azure 試用版アカウントと Resource Manager アカウントでのみサポートされます。 クラシック アカウントではサポートされていません。 アカウントの種類を無償で更新する方法のガイダンスについては、「 Azure AI Video Indexer アカウントの更新を参照してください。 カスタム言語エクスペリエンスの使用に関するガイダンスについては、「 言語モデルをカスタマイズするを参照してください。
音声モデル要求で使用されるパラメーターの一部の説明を次に示します。
名前 |
「」と入力します |
説明 |
|
displayName |
string |
データセットまたはモデルに希望する名前。 |
|
locale |
string |
データセットまたはモデルの言語コード。 完全な一覧については、言語サポートに関する記事を参照してください。 |
|
kind |
integer |
プレーンテキスト データセットの場合は 0、発音データセットの場合は 1。 |
|
description |
string |
データセットまたはモデルの省略可能な説明。 |
|
contentUrl |
uri |
データセットの作成で使用されるソース ファイルの URL。 |
|
customProperties |
object |
データセットまたはモデルの省略可能なプロパティ。 |
|
音声データセットを作成する
Create Speech Dataset 要求は、音声モデルをトレーニングするためのデータセットを作成します。 この要求でデータセットを作成するために使用するファイルをアップロードします。 データセットの内容は、作成後は変更することができません。
アップロードするテキスト ファイルへの URL を含む、要求本文でパラメーターを定義します。 説明とカスタム プロパティのフィールドは省略可能です。 要求本文の例を次に示します。
{
"displayName": "Pronunciation Dataset",
"locale": "en-US",
"kind": "Pronunciation",
"description": "This is a pronunciation dataset.",
"contentUrl": https://contoso.com/location,
"customProperties": {
"tag": "Pronunciation Dataset Example"
}
}
応答の例
{
"id": "000000-0000-0000-0000-f58ac7002ae9",
"properties": {
"acceptedLineCount": 0,
"rejectedLineCount": 0,
"duration": null,
"error": null
},
"displayName": "Contoso plain text",
"description": "VI dataset",
"locale": "en-US",
"kind": "Language",
"status": "Waiting",
"lastActionDateTime": "2023-02-28T13:24:27Z",
"createdDateTime": "2023-02-28T13:24:27Z",
"customProperties": null
}
音声モデルを作成する
Create Speech Model 要求は、ビデオの文字起こし精度を向上させるために使用できるカスタム音声モデルを作成してトレーニングします。 少なくとも 1 つのプレーン テキスト データセットを含む必要があります。 必要に応じて、発音データセットを含めることができます。 モデルのデータセットを作成後に追加または更新することはできないため、関連するすべてのデータセット ファイルを含めて作成してください。
モデルに含めるデータセットまたはデータセットの文字列の一覧を含む、要求本文でパラメーターを定義します。 説明とカスタム プロパティのフィールドは省略可能です。 これは、要求本文のサンプルです。
{
"displayName": "Contoso Speech Model",
"locale": "en-US",
"datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
"description": "Contoso ads example model",
"customProperties": {
"tag": "Example Model"
}
}
応答の例
{
"id": "00000000-0000-0000-0000-85be4454cf",
"properties": {
"deprecationDates": {
"adaptationDateTime": null,
"transcriptionDateTime": "2025-04-15T00:00:00Z"
},
"error": null
},
"displayName": "Contoso speech model",
"description": "Contoso speech model for video indexer",
"locale": "en-US",
"datasets": ["00000000-0000-0000-0000-f58ac7002ae9"],
"status": "Processing",
"lastActionDateTime": "2023-02-28T13:36:28Z",
"createdDateTime": "2023-02-28T13:36:28Z",
"customProperties": null
}
音声データセットを取得する
Get Speech Dataset API は、指定されたデータセットに関する情報を返します。
応答の例
{
"id": "00000000-0000-0000-0000-f58002ae9",
"properties": {
"acceptedLineCount": 41,
"rejectedLineCount": 0,
"duration": null,
"error": null
},
"displayName": "Contoso plain text",
"description": "VI dataset",
"locale": "en-US",
"kind": "Language",
"status": "Complete",
"lastActionDateTime": "2023-02-28T13:24:43Z",
"createdDateTime": "2023-02-28T13:24:27Z",
"customProperties": null
}
音声データセット ファイルを取得する
Get Speech Dataset Files 要求は、指定されたデータセットのファイルとメタデータを返します。
応答の例
[{
"datasetId": "00000000-0000-0000-0000-f58ac72a",
"fileId": "00000000-0000-0000-0000-cb190769c",
"name": "languagedata",
"contentUrl": "",
"kind": "LanguageData",
"createdDateTime": "2023-02-28T13:24:43Z",
"properties": {
"size": 1517
}
}, {
"datasetId": "00000000-0000-0000-0000-f58ac72”
"fileId": "00000000-0000-0000-0000-2369192e",
"name": "normalized.txt",
"contentUrl": "",
"kind": "LanguageData",
"createdDateTime": "2023-02-28T13:24:43Z",
"properties": {
"size": 1517
}
}, {
"datasetId": "00000000-0000-0000-0000-f58ac7",
"fileId": "00000000-0000-0000-0000-05f1e306",
"name": "report.json",
"contentUrl": "",
"kind": "DatasetReport",
"createdDateTime": "2023-02-28T13:24:43Z",
"properties": {
"size": 78
}
}]
指定したアカウント データセットを取得する
Get Speech Datasets 要求は、指定されたすべてのアカウント データセットに関する情報を返します。
応答の例
[{
"id": "00000000-0000-0000-abf5-4dad0f",
"properties": {
"acceptedLineCount": 41,
"rejectedLineCount": 0,
"duration": null,
"error": null
},
"displayName": "test",
"description": "string",
"locale": "en-US",
"kind": "Language",
"status": "Complete",
"lastActionDateTime": "2023-02-27T08:42:02Z",
"createdDateTime": "2023-02-27T08:41:39Z",
"customProperties": null
}]
指定した音声モデルを取得する
Get Speech Model API は、指定したモデルに関する情報を返します。
応答の例
{
"id": "00000000-0000-0000-0000-5685be445",
"properties": {
"deprecationDates": {
"adaptationDateTime": null,
"transcriptionDateTime": "2025-04-15T00:00:00Z"
},
"error": null
},
"displayName": "Contoso speech model",
"description": "Contoso speech model for video indexer",
"locale": "en-US",
"datasets": ["00000000-0000-0000-0000-f58ac7002"],
"status": "Complete",
"lastActionDateTime": "2023-02-28T13:36:38Z",
"createdDateTime": "2023-02-28T13:36:28Z",
"customProperties": null
}
指定したアカウントの音声モデルを取得する
Get Speech Models API は、指定されたアカウント内のすべてのモデルに関する情報を返します。
応答の例
[{
"id": "00000000-0000-0000-0000-5685be445",
"properties": {
"deprecationDates": {
"adaptationDateTime": null,
"transcriptionDateTime": "2025-04-15T00:00:00Z"
},
"error": null
},
"displayName": "Contoso speech model",
"description": "Contoso speech model for video indexer",
"locale": "en-US",
"datasets": ["00000000-0000-0000-0000-f58ac7002a"],
"status": "Complete",
"lastActionDateTime": "2023-02-28T13:36:38Z",
"createdDateTime": "2023-02-28T13:36:28Z",
"customProperties": null
}]
音声データセットを削除する
Delete Speech Dataset API は、指定したデータセットを削除します。 削除されたデータセットでトレーニングされたモデルは、モデルが削除されるまで引き続き使用できます。 インデックス作成またはトレーニングに使用されているデータセットは削除できません。
応答の例
データセットが正常に削除されたときに返されるコンテンツはありません。
音声モデルを削除する
Delete Speech Model API は、指定された音声モデルを削除します。 インデックス作成またはトレーニングで使用されている間は、モデルを削除できません。
回答
音声モデルが正常に削除されたときに返されるコンテンツはありません。