許容されるデータ形式
カスタム テキスト分類にデータをインポートする場合は、特定の形式に従う必要があります。 インポートするデータがない場合は、プロジェクトを作成し、Language Studio を使ってドキュメントにラベルを付けることができます。
ラベルのファイル形式
ラベル ファイルは下記の json
形式である必要があります。 これにより、ご利用のラベルをプロジェクトにインポートできます。
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Key | プレースホルダー | 値 | 例 |
---|---|---|---|
複数言語 | true |
データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニング ドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。 多言語サポートの詳細については、言語サポートをご覧ください。 | true |
projectName | {PROJECT-NAME} |
プロジェクト名 | myproject |
storageInputContainerName | {CONTAINER-NAME} |
コンテナー名 | mycontainer |
クラス | [] | プロジェクト内のすべてのクラスを含む配列。 これらはドキュメントの分類先となるクラスです。 | [] |
ドキュメント | [] | プロジェクト内のすべてのドキュメントと、このドキュメントにラベル付けされたクラスを含む配列。 | [] |
location | {DOCUMENT-NAME} |
ストレージ コンテナー内のドキュメントの場所。 すべてのドキュメントはコンテナーのルートに含まれているので、この値はドキュメント名にする必要があります。 | doc1.txt |
dataset | {DATASET} |
トレーニング前に分割される場合、このファイルの移動先のテスト セット。 詳細については、モデルのトレーニング方法に関する記事を参照してください。 このフィールドで使用できる値は Train および Test です。 |
Train |
次の手順
- ラベル付きデータをプロジェクトに直接インポートできます。 プロジェクトのインポートの詳細については、プロジェクトの作成方法に関する記事を参照してください。
- データのタグ付けに関する詳細については、操作方法に関する記事を参照してください。 データのタグ付けが完了したら、モデルをトレーニングできます。