Compartilhar via


Formatos de dados aceitos na análise de texto para saúde personalizada

Use este artigo para obter mais informações sobre como formatar seus dados a serem importados para a análise de texto para saúde personalizada.

Se você estiver tentando importar seus dados para a Análise de Texto para saúde personalizada, ela deve seguir um formato específico. Se você não tiver dados a serem importados, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.

Seu arquivo de Rótulos deve estar no formato json abaixo para ser usado ao importar seus rótulos para um projeto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chave Espaço reservado Valor Exemplo
multilingual true Um valor booliano que permite ter documentos em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Confira suporte de idioma para saber mais sobre o suporte multilíngue. true
projectName {PROJECT-NAME} Nome do projeto myproject
storageInputContainerName {CONTAINER-NAME} Nome do contêiner mycontainer
entities Matriz que contém todos os tipos de entidade presentes no projeto. São os tipos de entidade que serão extraídos dos documentos.
category O nome do tipo de entidade, que pode ser definido pelo usuário para novas definições de entidade ou predefinido para entidades predefinidas. Para obter mais informações, confira as regras de nomenclatura da entidade abaixo.
compositionSetting {COMPOSITION-SETTING} Regra que define como gerenciar vários componentes na entidade. As opções são combineComponents ou separateComponents. combineComponents
list Matriz que contém todas as sublistas que você tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades predefinidas ou a novas entidades com componentes de aprendizado.
sublists [] Matriz que contém sublistas. Cada sublista é uma chave e os valores associados. []
listKey One Um valor normalizado para a lista de sinônimos a serem mapeados novamente na previsão. One
synonyms [] Matriz contendo todos os sinônimos sinônimo
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma para o sinônimo na sublista. Se o seu projeto for multilíngue e você quiser apoiar sua lista de sinônimos para todos os idiomas do seu projeto, adicione explicitamente seus sinônimos em cada idioma. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. en
values "EntityNumberone", "FirstEntity" Uma lista de cadeias de caracteres separadas por vírgulas que terão uma correspondência exata para extração e mapa para a chave de lista. "EntityNumberone", "FirstEntity"
prebuilts MedicationName O nome do componente predefinido que preenche a entidade predefinida. As entidades predefinidas são carregadas automaticamente no seu projeto por padrão, mas você pode estendê-las com componentes da lista no seu arquivo de rótulos. MedicationName
documents Matriz que contém todos os documentos no projeto e lista das entidades rotuladas em cada documento. []
location {DOCUMENT-NAME} O local dos documentos no contêiner de armazenamento. Como todos os documentos estão na raiz do contêiner, esse deve ser o nome do documento. doc1.txt
dataset {DATASET} O conjunto de testes para o qual esse arquivo vai quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são Train e Test. Train
regionOffset A posição inclusiva de caractere do início do texto. 0
regionLength O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região. 500
category O tipo de entidade associada ao intervalo de texto especificado. Entity1
offset A posição inicial do texto da entidade. 25
length O tamanho da entidade em termos de caracteres UTF-16. 20
language {LANGUAGE-CODE} Uma cadeia de caracteres que especifica o código de idioma para o documento usado no projeto. Se for um projeto multilíngue, escolha o código de idioma da maioria dos documentos. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte. en

Regras de nomenclatura da entidade

  1. Os nomes de entidades predefinidas são predefinidos. Eles devem ser preenchidos com um componente predefinido e deve corresponder ao nome da entidade.
  2. Novas entidades definidas pelo usuário (entidades com componentes de aprendizado ou textos rotulados) não podem usar nomes de entidades predefinidos.
  3. As novas entidades definidas pelo usuário não podem ser preenchidas com componentes predefinidos, pois os componentes predefinidos devem corresponder aos nomes de suas entidades associadas e não devem ter dados rotulados atribuídos a elas na matriz de documentos.

Próximas etapas