Formatos de dados aceitos em análise de texto personalizada para integridade

Artigo
11/21/2024

Use este artigo para saber como formatar seus dados para serem importados para a análise de texto personalizada para integridade.

Se você estiver tentando importar seus dados para o Text Analytics personalizado para integridade, ele deverá seguir um formato específico. Se você não tiver dados para importar, poderá criar seu projeto e usar o Language Studio para rotular seus documentos.

Seu arquivo de etiquetas deve estar no json formato abaixo para ser usado ao importar suas etiquetas para um projeto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chave	Marcador de Posição	valor	Exemplo
`multilingual`	`true`	Um valor booleano que permite que você tenha documentos em vários idiomas em seu conjunto de dados e, quando seu modelo é implantado, você pode consultar o modelo em qualquer idioma suportado (não necessariamente incluído em seus documentos de treinamento). Consulte o suporte linguístico para saber mais sobre o suporte multilingue.	`true`
`projectName`	`{PROJECT-NAME}`	Nome do projeto	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nome do contentor	`mycontainer`
`entities`		Matriz contendo todos os tipos de entidade que você tem no projeto. Estes são os tipos de entidade que serão extraídos dos seus documentos.
`category`		O nome do tipo de entidade, que pode ser definido pelo usuário para novas definições de entidade ou predefinido para entidades pré-criadas. Para obter mais informações, consulte as regras de nomenclatura de entidades abaixo.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regra que define como gerenciar vários componentes em sua entidade. As opções são `combineComponents` ou `separateComponents`.	`combineComponents`
`list`		Matriz que contém todas as sublistas que você tem no projeto para uma entidade específica. As listas podem ser adicionadas a entidades pré-criadas ou a novas entidades com componentes aprendidos.
`sublists`	`[]`	Matriz contendo sublistas. Cada sublista é uma chave e seus valores associados.	`[]`
`listKey`	`One`	Um valor normalizado para a lista de sinônimos a serem mapeados de volta na previsão.	`One`
`synonyms`	`[]`	Matriz contendo todos os sinónimos	sinónimo
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres que especifica o código de idioma para o sinônimo em sua sublista. Se o seu projeto for multilingue e pretender apoiar a sua lista de sinónimos para todas as línguas do projeto, tem de adicionar explicitamente os seus sinónimos a cada língua. Consulte Suporte a idiomas para obter mais informações sobre códigos de idiomas suportados.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Uma lista de cadeias de caracteres separadas por vírgulas que serão correspondidas exatamente para extração e mapeada para a chave de lista.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	O nome do componente pré-construído que preenche a entidade pré-construída. As entidades pré-criadas são carregadas automaticamente em seu projeto por padrão, mas você pode estendê-las com componentes de lista em seu arquivo de etiquetas.	`MedicationName`
`documents`		Matriz contendo todos os documentos em seu projeto e lista das entidades rotuladas dentro de cada documento.	[]
`location`	`{DOCUMENT-NAME}`	A localização dos documentos no recipiente de armazenamento. Como todos os documentos estão na raiz do contêiner, este deve ser o nome do documento.	`doc1.txt`
`dataset`	`{DATASET}`	O conjunto de testes para o qual esse arquivo vai quando dividido antes do treinamento. Saiba mais sobre a divisão de dados aqui. Os valores possíveis para este campo são `Train` e `Test`.	`Train`
`regionOffset`		A posição de caracteres inclusivos do início do texto.	`0`
`regionLength`		O comprimento da caixa delimitadora em termos de caracteres UTF16. A formação considera apenas os dados desta região.	`500`
`category`		O tipo de entidade associada à extensão de texto especificada.	`Entity1`
`offset`		A posição inicial do texto da entidade.	`25`
`length`		O comprimento da entidade em termos de caracteres UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Uma cadeia de caracteres especificando o código de idioma para o documento usado em seu projeto. Se o seu projeto for multilingue, escolha o código linguístico da maioria dos documentos. Consulte Suporte a idiomas para obter mais informações sobre códigos de idiomas suportados.	`en`

Regras de nomenclatura de entidades

Os nomes de entidades pré-criadas são predefinidos . Eles devem ser preenchidos com um componente pré-construído e deve corresponder ao nome da entidade.
Novas entidades definidas pelo usuário (entidades com componentes aprendidos ou texto rotulado) não podem usar nomes de entidades pré-criadas.
Novas entidades definidas pelo usuário não podem ser preenchidas com componentes pré-construídos, pois os componentes pré-criados devem corresponder aos nomes de suas entidades associadas e não ter dados rotulados atribuídos a eles na matriz de documentos.

Próximos passos

Você pode importar seus dados rotulados para seu projeto diretamente. Saiba como importar projeto
Consulte o artigo de instruções para obter mais informações sobre como rotular seus dados.
Quando terminar de rotular seus dados, você poderá treinar seu modelo.

Partilhar via

Formatos de dados aceitos em análise de texto personalizada para integridade

Regras de nomenclatura de entidades

Próximos passos

Comentários

Recursos adicionais