Godkända dataformat i anpassad textanalys för hälsa

Artikel
11/21/2024

Använd den här artikeln om du vill lära dig hur du formaterar data som ska importeras till anpassad textanalys för hälsa.

Om du försöker importera dina data till anpassade Textanalys för hälsa måste de följa ett visst format. Om du inte har data att importera kan du skapa projektet och använda Language Studio för att märka dina dokument.

Filen Etiketter bör vara i formatet json nedan för att användas när du importerar etiketterna till ett projekt.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Nyckel	Platshållare	Värde	Exempel
`multilingual`	`true`	Ett booleskt värde som gör att du kan ha dokument på flera språk i datauppsättningen och när din modell distribueras kan du fråga modellen på alla språk som stöds (inte nödvändigtvis i dina träningsdokument). Mer information om flerspråkig support finns i språkstöd .	`true`
`projectName`	`{PROJECT-NAME}`	Projektnamn	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Containerns namn	`mycontainer`
`entities`		Matris som innehåller alla entitetstyper som du har i projektet. Det här är de entitetstyper som kommer att extraheras från dina dokument till.
`category`		Namnet på entitetstypen, som kan vara användardefinierad för nya entitetsdefinitioner eller fördefinierade för fördefinierade entiteter. Mer information finns i namngivningsreglerna för entitet nedan.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regel som definierar hur du hanterar flera komponenter i entiteten. Alternativen är `combineComponents` eller `separateComponents`.	`combineComponents`
`list`		Matris som innehåller alla underlistor som du har i projektet för en specifik entitet. Listor kan läggas till i fördefinierade entiteter eller nya entiteter med inlärda komponenter.
`sublists`	`[]`	Matris som innehåller underlistor. Varje underlista är en nyckel och dess associerade värden.	`[]`
`listKey`	`One`	Ett normaliserat värde för listan över synonymer som ska mappas tillbaka till i förutsägelsen.	`One`
`synonyms`	`[]`	Matris som innehåller alla synonymer	synonym
`language`	`{LANGUAGE-CODE}`	En sträng som anger språkkoden för synonymen i underlistan. Om projektet är ett flerspråkigt projekt och du vill stödja din lista över synonymer för alla språk i projektet måste du uttryckligen lägga till synonymerna i varje språk. Mer information om språkkoder som stöds finns i Språkstöd .	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	En lista över kommaavgränsade strängar som matchas exakt för extrahering och mappning till listnyckeln.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Namnet på den fördefinierade komponenten som fyller i den fördefinierade entiteten. Fördefinierade entiteter läses automatiskt in i projektet som standard, men du kan utöka dem med listkomponenter i din etikettfil.	`MedicationName`
`documents`		Matris som innehåller alla dokument i projektet och en lista över de entiteter som är märkta i varje dokument.	[]
`location`	`{DOCUMENT-NAME}`	Platsen för dokumenten i lagringscontainern. Eftersom alla dokument finns i roten i containern bör detta vara dokumentnamnet.	`doc1.txt`
`dataset`	`{DATASET}`	Testuppsättningen som filen går till när den delas upp före träningen. Läs mer om datadelning här. Möjliga värden för det här fältet är `Train` och `Test`.	`Train`
`regionOffset`		Den inkluderande teckenpositionen i början av texten.	`0`
`regionLength`		Längden på avgränsningsrutan i termer av UTF16-tecken. Utbildningen tar endast hänsyn till data i den här regionen.	`500`
`category`		Den typ av entitet som är associerad med det angivna textintervallet.	`Entity1`
`offset`		Startpositionen för entitetstexten.	`25`
`length`		Längden på entiteten när det gäller UTF16-tecken.	`20`
`language`	`{LANGUAGE-CODE}`	En sträng som anger språkkoden för dokumentet som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta dokumenten. Mer information om språkkoder som stöds finns i Språkstöd .	`en`

Namngivningsregler för entitet

Fördefinierade entitetsnamn är fördefinierade. De måste fyllas i med en fördefinierad komponent och den måste matcha entitetsnamnet.
Nya användardefinierade entiteter (entiteter med inlärda komponenter eller märkt text) kan inte använda fördefinierade entitetsnamn.
Nya användardefinierade entiteter kan inte fyllas med fördefinierade komponenter eftersom fördefinierade komponenter måste matcha deras associerade entitetsnamn och inte har några etiketterade data tilldelade till dem i dokumentmatrisen.

Nästa steg

Du kan importera etiketterade data till projektet direkt. Lär dig hur du importerar projekt
Mer information om hur du etiketterar dina data finns i artikeln instruktioner.
När du är klar med att märka dina data kan du träna din modell.

Dela via

Godkända dataformat i anpassad textanalys för hälsa

Namngivningsregler för entitet

Nästa steg

Feedback

Ytterligare resurser