Formatos de dados aceitos em análise de texto personalizada para integridade
Use este artigo para saber como formatar seus dados para serem importados para a análise de texto personalizada para integridade.
Se você estiver tentando importar seus dados para o Text Analytics personalizado para integridade, ele deverá seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.
Seu arquivo de etiquetas deve estar no json
formato abaixo para ser usado ao importar suas etiquetas para um projeto.
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Chave | Marcador de Posição | valor | Exemplo |
---|---|---|---|
multilingual |
true |
Um valor booleano que permite que você tenha documentos em vários idiomas em seu conjunto de dados e, quando seu modelo é implantado, você pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento). Consulte o suporte linguístico para saber mais sobre o suporte multilingue. | true |
projectName |
{PROJECT-NAME} |
Nome do projeto | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
Nome do contentor | mycontainer |
entities |
Matriz contendo todos os tipos de entidade que você tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos. | ||
category |
O nome do tipo de entidade, que pode ser definido pelo usuário para novas definições de entidade ou predefinido para entidades pré-criadas. Para obter mais informações, consulte as regras de nomenclatura de entidades abaixo. | ||
compositionSetting |
{COMPOSITION-SETTING} |
Regra que define como gerenciar vários componentes em sua entidade. As opções são combineComponents ou separateComponents . |
combineComponents |
list |
Matriz que contém todas as sublistas que você tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades pré-criadas ou a novas entidades com componentes aprendidos. | ||
sublists |
[] |
Matriz contendo sublistas. Cada sublista é uma chave e seus valores associados. | [] |
listKey |
One |
Um valor normalizado para a lista de sinônimos a serem mapeados de volta na previsão. | One |
synonyms |
[] |
Matriz contendo todos os sinónimos | sinónimo |
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres que especifica o código de idioma para o sinônimo em sua sublista. Se o seu projeto for multilingue e pretender apoiar a sua lista de sinónimos para todas as línguas do projeto, tem de adicionar explicitamente os seus sinónimos a cada língua. Consulte Suporte a idiomas para obter mais informações sobre códigos de idiomas suportados. | en |
values |
"EntityNumberone" , "FirstEntity" |
Uma lista de cadeias de caracteres separadas por vírgulas que serão correspondidas exatamente para extração e mapeada para a chave de lista. | "EntityNumberone" , "FirstEntity" |
prebuilts |
MedicationName |
O nome do componente pré-construído que preenche a entidade pré-construída. As entidades pré-criadas são carregadas automaticamente em seu projeto por padrão, mas você pode estendê-las com componentes de lista em seu arquivo de etiquetas. | MedicationName |
documents |
Matriz contendo todos os documentos em seu projeto e lista das entidades rotuladas dentro de cada documento. | [] | |
location |
{DOCUMENT-NAME} |
A localização dos documentos no recipiente de armazenamento. Como todos os documentos estão na raiz do contêiner, este deve ser o nome do documento. | doc1.txt |
dataset |
{DATASET} |
O conjunto de testes para o qual esse arquivo vai quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para este campo são Train e Test . |
Train |
regionOffset |
A posição de caracteres inclusivos do início do texto. | 0 |
|
regionLength |
O comprimento da caixa delimitadora em termos de caracteres UTF16. A formação considera apenas os dados desta região. | 500 |
|
category |
O tipo de entidade associada à extensão de texto especificada. | Entity1 |
|
offset |
A posição inicial do texto da entidade. | 25 |
|
length |
O comprimento da entidade em termos de caracteres UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Uma cadeia de caracteres especificando o código de idioma para o documento usado em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico da maioria dos documentos. Consulte Suporte a idiomas para obter mais informações sobre códigos de idiomas suportados. | en |
Regras de nomenclatura de entidades
- Os nomes de entidades pré-criadas são predefinidos . Eles devem ser preenchidos com um componente pré-construído e deve corresponder ao nome da entidade.
- Novas entidades definidas pelo usuário (entidades com componentes aprendidos ou texto rotulado) não podem usar nomes de entidades pré-criadas.
- Novas entidades definidas pelo usuário não podem ser preenchidas com componentes pré-construídos, pois os componentes pré-criados devem corresponder aos nomes de suas entidades associadas e não ter dados rotulados atribuídos a eles na matriz de documentos.
Próximos passos
- Você pode importar seus dados rotulados para seu projeto diretamente. Saiba como importar projeto
- Consulte o artigo de instruções para obter mais informações sobre como rotular seus dados.
- Quando terminar de rotular seus dados, você poderá treinar seu modelo.