Compartilhar via


Formatos de dados da análise de sentimento personalizados aceitos

Se você estiver tentando importar seus dados para a análise de sentimento personalizada, precisará seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.

Formato de arquivo de rótulos

O arquivo Rótulos deve estar no formato json abaixo para ser usado na importação de seus rótulos para um projeto.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Chave Espaço reservado Valor Exemplo
multilingual true Um valor booliano que permite ter documentos em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Confira suporte de idioma para saber mais sobre o suporte multilíngue. true
projectName {PROJECT-NAME} Nome do projeto myproject
storageInputContainerName {CONTAINER-NAME} Nome do contêiner mycontainer
sentimentSpans Matriz que contém todos os sentimentos e seus locais no documento.
documents Matriz que contém todos os documentos no projeto e lista das entidades rotuladas em cada documento. []
location {DOCUMENT-NAME} O local dos documentos no contêiner de armazenamento. Como todos os documentos estão na raiz do contêiner, esse deve ser o nome do documento. doc1.txt
dataset {DATASET} O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são Train e Test. Train
offset A posição inclusiva de caractere do início de um sentimento no texto. 0
length O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região. 500
category O tipo de entidade associada ao intervalo de texto especificado. positive
offset A posição inicial do texto da entidade. 25
length O tamanho da entidade em termos de caracteres UTF-16. 20
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma para o documento usado no projeto. Se for um projeto multilíngue, escolha o código de idioma da maioria dos documentos. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. en-us

Próximas etapas