Formatos de dados da análise de sentimento personalizados aceitos

Artigo
11/21/2024

Se você estiver tentando importar seus dados para a análise de sentimento personalizada, precisará seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.

Formato de arquivo de rótulos

O arquivo Rótulos deve estar no formato json abaixo para ser usado na importação de seus rótulos para um projeto.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Chave	Espaço reservado	Valor	Exemplo
`multilingual`	`true`	Um valor booliano que permite ter documentos em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Confira suporte de idioma para saber mais sobre o suporte multilíngue.	`true`
`projectName`	`{PROJECT-NAME}`	Nome do projeto	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Nome do contêiner	`mycontainer`
`sentimentSpans`		Matriz que contém todos os sentimentos e seus locais no documento.
`documents`		Matriz que contém todos os documentos no projeto e lista das entidades rotuladas em cada documento.	[]
`location`	`{DOCUMENT-NAME}`	O local dos documentos no contêiner de armazenamento. Como todos os documentos estão na raiz do contêiner, esse deve ser o nome do documento.	`doc1.txt`
`dataset`	`{DATASET}`	O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são `Train` e `Test`.	`Train`
`offset`		A posição inclusiva de caractere do início de um sentimento no texto.	`0`
`length`		O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região.	`500`
`category`		O tipo de entidade associada ao intervalo de texto especificado.	`positive`
`offset`		A posição inicial do texto da entidade.	`25`
`length`		O tamanho da entidade em termos de caracteres UTF-16.	`20`
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma para o documento usado no projeto. Se for um projeto multilíngue, escolha o código de idioma da maioria dos documentos. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte.	`en-us`

Próximas etapas

Você pode importar os dados rotulados diretamente no seu projeto. Saiba como importar projetos
Confira o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.

Compartilhar via

Formatos de dados da análise de sentimento personalizados aceitos

Formato de arquivo de rótulos

Próximas etapas

Comentários

Recursos adicionais