Formatos de datos aceptados
Si intenta importar los datos en una clasificación de texto personalizada, éstos deben seguir un formato específico. Si no tiene datos para importar, puede crear el proyecto y usar Language Studio para etiquetar sus documentos.
Formato de archivo de etiquetas
El archivo de etiquetas debe tener el siguiente formato json
. Esto le permitirá importar las etiquetas en un proyecto.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
Clave | Marcador de posición | Valor | Ejemplo |
---|---|---|---|
multilingües | true |
Valor booleano que le permite tener documentos en varios idiomas del conjunto de datos y, cuando se implementa el modelo, puede consultarlo en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Consulte Compatibilidad de idiomas para obtener más información sobre la compatibilidad multilingüe. | true |
projectName | {PROJECT-NAME} |
Nombre de proyecto | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nombre del contenedor | mycontainer |
clases | [] | Matriz que contiene todas las clases que tiene en el proyecto. Se trata de las clases en las que desea clasificar los documentos. | [] |
Documentos | [] | Matriz que contiene todos los documentos del proyecto y las clases etiquetadas para este documento. | [] |
ubicación | {DOCUMENT-NAME} |
Ubicación de los documentos en el contenedor de almacenamiento. Puesto que todos los documentos están en la raíz del contenedor, este valor debe ser el nombre del documento. | doc1.txt |
dataset | {DATASET} |
El conjunto de pruebas al que este archivo irá cuando se divida antes del entrenamiento. Para más información, consulte Cómo entrenar un modelo. Los valores posibles que admite este campo son Train y Test . |
Train |
Pasos siguientes
- Puede importar los datos etiquetados directamente en el proyecto. Consulte Creación de un proyecto para obtener más información sobre la importación de proyectos.
- Consulte el artículo de procedimientos para más información sobre el etiquetado de los datos. Cuando haya terminado de etiquetar los datos, puede entrenar el modelo.