Formatos de dados da análise de sentimento personalizados aceitos
Se você estiver tentando importar seus dados para a análise de sentimento personalizada, precisará seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.
Formato de arquivo de rótulos
O arquivo Rótulos deve estar no formato json
abaixo para ser usado na importação de seus rótulos para um projeto.
{
"projectFileVersion": "2023-04-15-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomTextSentiment",
"storageInputContainerName": "custom-sentiment-2",
"projectName": "sa-test",
"multilingual": false,
"description": "",
"language": "en-us"
},
"assets": {
"projectKind": "CustomTextSentiment",
"documents": [
{
"location": "document_1.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 60
},
{
"category": "neutral",
"offset": 61,
"length": 31
}
],
"dataset": "Train"
},
{
"location": "document_2.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 50
},
{
"category": "positive",
"offset": 51,
"length": 49
},
{
"category": "positive",
"offset": 101,
"length": 26
}
],
"dataset": "Train"
}
]
}
}
Chave | Espaço reservado | Valor | Exemplo |
---|---|---|---|
multilingual |
true |
Um valor booliano que permite ter documentos em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Confira suporte de idioma para saber mais sobre o suporte multilíngue. | true |
projectName |
{PROJECT-NAME} |
Nome do projeto | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nome do contêiner | mycontainer |
sentimentSpans |
Matriz que contém todos os sentimentos e seus locais no documento. | ||
documents |
Matriz que contém todos os documentos no projeto e lista das entidades rotuladas em cada documento. | [] | |
location |
{DOCUMENT-NAME} |
O local dos documentos no contêiner de armazenamento. Como todos os documentos estão na raiz do contêiner, esse deve ser o nome do documento. | doc1.txt |
dataset |
{DATASET} |
O conjunto de teste para o qual esse arquivo será exibido, quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são Train e Test . |
Train |
offset |
A posição inclusiva de caractere do início de um sentimento no texto. | 0 |
|
length |
O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região. | 500 |
|
category |
O tipo de entidade associada ao intervalo de texto especificado. | positive |
|
offset |
A posição inicial do texto da entidade. | 25 |
|
length |
O tamanho da entidade em termos de caracteres UTF-16. | 20 |
|
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres que especifica o código de idioma para o documento usado no projeto. Se for um projeto multilíngue, escolha o código de idioma da maioria dos documentos. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. | en-us |
Próximas etapas
- Você pode importar os dados rotulados diretamente no seu projeto. Saiba como importar projetos
- Confira o artigo de instruções para obter mais informações sobre como rotular seus dados. Quando terminar de rotular seus dados, você poderá treinar seu modelo.