Partilhar via


Formatos de dados aceites

Se você estiver tentando importar seus dados para uma classificação de texto personalizada, ela deverá seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.

Formato de arquivo de etiquetas

Seu arquivo de etiquetas deve estar no json formato abaixo. Isso permitirá que você importe suas etiquetas para um projeto.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}
Chave Marcador de Posição valor Exemplo
multilingue true Um valor booleano que permite que você tenha documentos em vários idiomas em seu conjunto de dados e, quando seu modelo é implantado, você pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento). Consulte o suporte linguístico para saber mais sobre o suporte multilingue. true
projectName {PROJECT-NAME} Nome do projeto O meu projeto
storageInputContainerName {CONTAINER-NAME} Nome do contentor mycontainer
objetos [] Matriz contendo todas as classes que você tem no projeto. Estas são as classes em que pretende classificar os seus documentos. []
documents [] Matriz que contém todos os documentos em seu projeto e as classes rotuladas para este documento. []
localização {DOCUMENT-NAME} A localização dos documentos no recipiente de armazenamento. Como todos os documentos estão na raiz do contêiner, esse valor deve ser o nome do documento. doc1.txt
conjunto de dados {DATASET} O conjunto de testes para o qual este arquivo irá quando dividido antes do treinamento. Consulte Como treinar um modelo para obter mais informações. Os valores possíveis para este campo são Train e Test. Train

Próximos passos

  • Você pode importar seus dados rotulados para seu projeto diretamente. Consulte Como criar um projeto para saber mais sobre como importar projetos.
  • Consulte o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.