Formatos de dados aceites
Se você estiver tentando importar seus dados para uma classificação de texto personalizada, ela deverá seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.
Formato de arquivo de etiquetas
Seu arquivo de etiquetas deve estar no json
formato abaixo. Isso permitirá que você importe suas etiquetas para um projeto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Chave | Marcador de Posição | valor | Exemplo |
---|---|---|---|
multilingue | true |
Um valor booleano que permite que você tenha documentos em vários idiomas em seu conjunto de dados e, quando seu modelo é implantado, você pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento). Consulte o suporte linguístico para saber mais sobre o suporte multilingue. | true |
projectName | {PROJECT-NAME} |
Nome do projeto | O meu projeto |
storageInputContainerName | {CONTAINER-NAME} |
Nome do contentor | mycontainer |
objetos | [] | Matriz contendo todas as classes que você tem no projeto. Estas são as classes em que pretende classificar os seus documentos. | [] |
documents | [] | Matriz que contém todos os documentos em seu projeto e as classes rotuladas para este documento. | [] |
localização | {DOCUMENT-NAME} |
A localização dos documentos no recipiente de armazenamento. Como todos os documentos estão na raiz do contêiner, esse valor deve ser o nome do documento. | doc1.txt |
conjunto de dados | {DATASET} |
O conjunto de testes para o qual este arquivo irá quando dividido antes do treinamento. Consulte Como treinar um modelo para obter mais informações. Os valores possíveis para este campo são Train e Test . |
Train |
Próximos passos
- Você pode importar seus dados rotulados para seu projeto diretamente. Consulte Como criar um projeto para saber mais sobre como importar projetos.
- Consulte o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.