会話言語理解によって受け入れられるデータ形式
会話言語理解にデータをアップロードする場合は、特定の形式に従う必要があります。 この記事では、受け入れられるデータ形式の詳細について説明します。
プロジェクト ファイル形式をインポートする
会話言語理解にプロジェクトをインポートする場合、アップロードするファイルは次の形式である必要があります。
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
キー | プレースホルダー | 値 | 例 |
---|---|---|---|
{API-VERSION} |
呼び出している API のバージョン。 | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
これはしきい値スコアで、これ未満の意図は None 意図として予測されます。 値は 0 から 1 です。 |
0.7 |
projectName |
{PROJECT-NAME} |
プロジェクトの名前。 この値では大文字と小文字は区別されます。 | EmailApp |
multilingual |
true |
データセット内に複数言語の発話を含めることができるようにするブール値。 モデルがデプロイされると、サポートされている任意の言語 (トレーニング ドキュメントに含まれているとは限りません) でモデルにクエリを実行できます。 サポートされている言語コードの詳細については、言語サポートを参照してください。 | true |
sublists |
[] |
サブリストを含む配列。 各サブリストは、キーとそれに関連する値です。 | [] |
compositionSetting |
{COMPOSITION-SETTING} |
エンティティ内の複数のコンポーネントを管理する方法を定義するルール。 combineComponents または separateComponents のいずれかを選択できます。 |
combineComponents |
synonyms |
[] |
すべての類義語を含む配列。 | シノニム |
language |
{LANGUAGE-CODE} |
プロジェクトで使用される発話、シノニム、および正規表現の言語コードを指定する文字列。 プロジェクトが多言語プロジェクトである場合は、発話の多くを占める言語コードを選択します。 | en-us |
intents |
[] |
プロジェクト内のすべての意図を含む配列。 これらの意図は、発話から分類されます。 | [] |
entities |
[] |
プロジェクト内のすべてのエンティティを含む配列。 これらのエンティティは、発話から抽出されます。 すべてのエンティティには、リスト、事前構築済み、または正規表現など、他のオプションのコンポーネントを定義できます。 | [] |
dataset |
{DATASET} |
トレーニングの前に分割する場合に、この発話の移動先となるテスト セット。 データ分割の詳細については、「会話言語理解のモデルをトレーニングする」を参照してください。 このフィールドで使用できる値は Train および Test です。 |
Train |
category |
|
指定されたテキストのスパンに関連付けられているエンティティ型。 | Entity1 |
offset |
|
エンティティの開始文字位置 (その文字を含む)。 | 5 |
length |
|
エンティティの文字の長さ。 | 5 |
listKey |
|
予測でマップし直すシノニムの一覧の正規化された値。 | Microsoft |
values |
{VALUES-FOR-LIST} |
抽出用に完全に一致した、リスト キーにマップされるコンマ区切り文字列のリスト。 | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
予測にマップし直すための正規表現の正規化された値。 | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
正規表現。 | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
一般的な種類を抽出できる事前構築済みのコンポーネント。 追加できる事前構築済みのリストについては、「サポートされている事前構築済みエンティティ コンポーネント」を参照してください。 | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
エンティティを返すには特定のコンポーネントが存在する必要がある、という要件を指定する設定。 詳細については、「エンティティ コンポーネント」を参照してください。 使用できる値は、learned 、regex 、list 、prebuilts です。 |
"learned", "prebuilt" |
発話のファイル形式
会話言語理解では、発話を 1 つずつ入力するのではなく、プロジェクトに直接アップロードするオプションが用意されています。 このオプションは、プロジェクトの [データのラベル付け] ページ上にあります。
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
キー | プレースホルダー | 値 | 例 |
---|---|---|---|
text |
{Utterance-Text} |
発話テキスト。 | テスト |
language |
{LANGUAGE-CODE} |
プロジェクト内で使用される発話の言語コードを指定する文字列。 プロジェクトが多言語プロジェクトである場合は、発話の多くを占める言語コードを選択します。 サポートされている言語コードの詳細については、言語サポートを参照してください。 | en-us |
dataset |
{DATASET} |
トレーニングの前に分割する場合に、この発話の移動先となるテスト セット。 データ分割の詳細については、「会話言語理解のモデルをトレーニングする」を参照してください。 このフィールドで使用できる値は Train および Test です。 |
Train |
intent |
{intent} |
割り当てられた意図。 | intent1 |
entity |
{entity} |
抽出されるエンティティ。 | entity1 |
category |
|
指定されたテキストのスパンに関連付けられているエンティティ型。 | Entity1 |
offset |
|
テキストの先頭の包括的な文字位置。 | 0 |
length |
|
UTF16 文字を基準とした場合の境界ボックスの長さ。 トレーニングではこの領域のデータのみが考慮されます。 | 500 |
関連するコンテンツ
- ラベル付きデータをプロジェクトに直接インポートする方法の詳細については、「プロジェクトのインポート」を参照してください。
- データのラベル付けの詳細については、「Language Studio で発話にラベルを付ける」を参照してください。 データにラベルを付けた後、そのモデルをトレーニングできます。