Formatos de dados aceitos na análise de texto para saúde personalizada

Artigo
11/21/2024

Use este artigo para obter mais informações sobre como formatar seus dados a serem importados para a análise de texto para saúde personalizada.

Se você estiver tentando importar seus dados para a Análise de Texto para saúde personalizada, ela deve seguir um formato específico. Se você não tiver dados a serem importados, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.

Seu arquivo de Rótulos deve estar no formato json abaixo para ser usado ao importar seus rótulos para um projeto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chave	Espaço reservado	Valor	Exemplo
`multilingual`	`true`	Um valor booliano que permite ter documentos em vários idiomas no conjunto de dados e, quando o modelo é implantado, é possível consultar o modelo em qualquer idioma com suporte, (não necessariamente incluído nos documentos de treinamento). Confira suporte de idioma para saber mais sobre o suporte multilíngue.	`true`
`projectName`	`{PROJECT-NAME}`	Nome do projeto	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nome do contêiner	`mycontainer`
`entities`		Matriz que contém todos os tipos de entidade presentes no projeto. São os tipos de entidade que serão extraídos dos documentos.
`category`		O nome do tipo de entidade, que pode ser definido pelo usuário para novas definições de entidade ou predefinido para entidades predefinidas. Para obter mais informações, confira as regras de nomenclatura da entidade abaixo.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regra que define como gerenciar vários componentes na entidade. As opções são `combineComponents` ou `separateComponents`.	`combineComponents`
`list`		Matriz que contém todas as sublistas que você tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades predefinidas ou a novas entidades com componentes de aprendizado.
`sublists`	`[]`	Matriz que contém sublistas. Cada sublista é uma chave e os valores associados.	`[]`
`listKey`	`One`	Um valor normalizado para a lista de sinônimos a serem mapeados novamente na previsão.	`One`
`synonyms`	`[]`	Matriz contendo todos os sinônimos	sinônimo
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma para o sinônimo na sublista. Se o seu projeto for multilíngue e você quiser apoiar sua lista de sinônimos para todos os idiomas do seu projeto, adicione explicitamente seus sinônimos em cada idioma. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Uma lista de cadeias de caracteres separadas por vírgulas que terão uma correspondência exata para extração e mapa para a chave de lista.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	O nome do componente predefinido que preenche a entidade predefinida. As entidades predefinidas são carregadas automaticamente no seu projeto por padrão, mas você pode estendê-las com componentes da lista no seu arquivo de rótulos.	`MedicationName`
`documents`		Matriz que contém todos os documentos no projeto e lista das entidades rotuladas em cada documento.	[]
`location`	`{DOCUMENT-NAME}`	O local dos documentos no contêiner de armazenamento. Como todos os documentos estão na raiz do contêiner, esse deve ser o nome do documento.	`doc1.txt`
`dataset`	`{DATASET}`	O conjunto de testes para o qual esse arquivo vai quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para esse campo são `Train` e `Test`.	`Train`
`regionOffset`		A posição inclusiva de caractere do início do texto.	`0`
`regionLength`		O tamanho da caixa delimitadora em termos de caracteres UTF-16. O treinamento só considera os dados nessa região.	`500`
`category`		O tipo de entidade associada ao intervalo de texto especificado.	`Entity1`
`offset`		A posição inicial do texto da entidade.	`25`
`length`		O tamanho da entidade em termos de caracteres UTF-16.	`20`
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma para o documento usado no projeto. Se for um projeto multilíngue, escolha o código de idioma da maioria dos documentos. Consulte o Suporte de idioma para obter mais informações sobre códigos de idioma com suporte.	`en`

Regras de nomenclatura da entidade

Os nomes de entidades predefinidas são predefinidos. Eles devem ser preenchidos com um componente predefinido e deve corresponder ao nome da entidade.
Novas entidades definidas pelo usuário (entidades com componentes de aprendizado ou textos rotulados) não podem usar nomes de entidades predefinidos.
As novas entidades definidas pelo usuário não podem ser preenchidas com componentes predefinidos, pois os componentes predefinidos devem corresponder aos nomes de suas entidades associadas e não devem ter dados rotulados atribuídos a elas na matriz de documentos.

Próximas etapas

Você pode importar os dados rotulados diretamente no seu projeto. Saiba como importar projetos
Confira o artigo de instruções para obter mais informações sobre como rotular seus dados.
Quando terminar de rotular seus dados, você poderá treinar seu modelo.

Compartilhar via

Formatos de dados aceitos na análise de texto para saúde personalizada

Regras de nomenclatura da entidade

Próximas etapas

Comentários

Recursos adicionais