Condividi tramite


Formati di dati accettati nell'analisi testuale personalizzata per la salute

Usare questo articolo per ottenere informazioni sulla formattazione dei dati da importare nell’analisi testuale personalizzata per la salute.

Se si sta tentando di importare dati in Analisi testuale personalizzata per la salute, è necessario rispettare un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Il file delle etichette deve avere il json formato indicato di seguito per poter essere usato per l’importazione di etichette in un progetto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chiave Segnaposto Valore Esempio
multilingual true Valore booleano che consente l’inclusione di documenti in diverse lingue nel set di dati; quando il modello viene distribuito, è possibile eseguire query sul modello in qualunque lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue. true
projectName {PROJECT-NAME} Nome progetto myproject
storageInputContainerName {CONTAINER-NAME} Nome contenitore mycontainer
entities Array contenente tutti i tipi di entità inclusi nel progetto. Sono i tipi di entità che verranno estratti dai documenti.
category Il nome del tipo di entità, che può essere definito dall'utente per le nuove definizioni di entità oppure predefinito per le entità predefinite. Per altre informazioni, vedere le regole di denominazione delle entità indicate di seguito.
compositionSetting {COMPOSITION-SETTING} Regola che definisce come gestire più componenti nell'entità. Le opzioni sono combineComponents o separateComponents. combineComponents
list Array contenente tutti gli elenchi secondari presenti nel progetto per un'entità specifica. Gli elenchi possono essere aggiunti alle entità predefinite o alle nuove entità con i componenti appresi.
sublists [] Array contenente elenchi secondari. Ogni elenco secondario è una chiave con i relativi valori associati. []
listKey One Un valore normalizzato per l'elenco di sinonimi su cui eseguire il mapping nella stima. One
synonyms [] Array contenente tutti i sinonimi sinonimo
language {LANGUAGE-CODE} Una stringa che specifica il codice lingua per il sinonimo nell’elenco secondario. Se il progetto è un progetto multilingue e si desidera supportare l'elenco di sinonimi per tutte le lingue nel progetto, è necessario aggiungere in modo esplicito i sinonimi a ogni lingua. Per altre informazioni sui codici lingua supportati, vedere Supporto lingue. en
values "EntityNumberone", "FirstEntity" Un elenco di stringhe separate da virgole che corrisponderà perfettamente per l'estrazione e il mapping alla chiave dell’elenco. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Il nome del componente predefinito che popola l'entità predefinita. Per impostazione predefinita, nel progetto vengono caricate automaticamente le entità predefinite, ma è possibile estenderle con i componenti dell’elenco nel file di etichette. MedicationName
documents Array contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. []
location {DOCUMENT-NAME} Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, deve corrispondere al nome del documento. doc1.txt
dataset {DATASET} Set di test a cui verrà sottoposto il file quando viene diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono Train e Test. Train
regionOffset La posizione del carattere inclusivo dell'inizio del testo. 0
regionLength La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area. 500
category Il tipo di entità associata all'intervallo di testo specificato. Entity1
offset La posizione iniziale per il testo dell'entità. 25
length La lunghezza dell’entità in termini di caratteri UTF16. 20
language {LANGUAGE-CODE} Una stringa che specifica il codice lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice lingua della maggior parte dei documenti. Per altre informazioni sui codici lingua supportati, vedere Supporto lingue. en

Regole di denominazione delle entità

  1. I nomi di entità predefiniti sono predefiniti. Devono essere popolati con un componente predefinito e devono corrispondere al nome dell'entità.
  2. Le nuove entità definite dall'utente (entità con componenti appresi o testo etichettato) non possono usare nomi di entità predefiniti.
  3. Le nuove entità definite dall'utente non possono essere popolate con componenti predefiniti poiché questi devono corrispondere ai nomi delle entità associate e non hanno dati etichettati assegnati nella matrice di documenti.

Passaggi successivi