Dela via


Godkända dataformat i anpassad textanalys för hälsa

Använd den här artikeln om du vill lära dig hur du formaterar data som ska importeras till anpassad textanalys för hälsa.

Om du försöker importera dina data till anpassade Textanalys för hälsa måste de följa ett visst format. Om du inte har data att importera kan du skapa projektet och använda Language Studio för att märka dina dokument.

Filen Etiketter bör vara i formatet json nedan för att användas när du importerar etiketterna till ett projekt.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Nyckel Platshållare Värde Exempel
multilingual true Ett booleskt värde som gör att du kan ha dokument på flera språk i datauppsättningen och när din modell distribueras kan du fråga modellen på alla språk som stöds (inte nödvändigtvis i dina träningsdokument). Mer information om flerspråkig support finns i språkstöd . true
projectName {PROJECT-NAME} Projektnamn myproject
storageInputContainerName {CONTAINER-NAME} Containerns namn mycontainer
entities Matris som innehåller alla entitetstyper som du har i projektet. Det här är de entitetstyper som kommer att extraheras från dina dokument till.
category Namnet på entitetstypen, som kan vara användardefinierad för nya entitetsdefinitioner eller fördefinierade för fördefinierade entiteter. Mer information finns i namngivningsreglerna för entitet nedan.
compositionSetting {COMPOSITION-SETTING} Regel som definierar hur du hanterar flera komponenter i entiteten. Alternativen är combineComponents eller separateComponents. combineComponents
list Matris som innehåller alla underlistor som du har i projektet för en specifik entitet. Listor kan läggas till i fördefinierade entiteter eller nya entiteter med inlärda komponenter.
sublists [] Matris som innehåller underlistor. Varje underlista är en nyckel och dess associerade värden. []
listKey One Ett normaliserat värde för listan över synonymer som ska mappas tillbaka till i förutsägelsen. One
synonyms [] Matris som innehåller alla synonymer synonym
language {LANGUAGE-CODE} En sträng som anger språkkoden för synonymen i underlistan. Om projektet är ett flerspråkigt projekt och du vill stödja din lista över synonymer för alla språk i projektet måste du uttryckligen lägga till synonymerna i varje språk. Mer information om språkkoder som stöds finns i Språkstöd . en
values "EntityNumberone", "FirstEntity" En lista över kommaavgränsade strängar som matchas exakt för extrahering och mappning till listnyckeln. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Namnet på den fördefinierade komponenten som fyller i den fördefinierade entiteten. Fördefinierade entiteter läses automatiskt in i projektet som standard, men du kan utöka dem med listkomponenter i din etikettfil. MedicationName
documents Matris som innehåller alla dokument i projektet och en lista över de entiteter som är märkta i varje dokument. []
location {DOCUMENT-NAME} Platsen för dokumenten i lagringscontainern. Eftersom alla dokument finns i roten i containern bör detta vara dokumentnamnet. doc1.txt
dataset {DATASET} Testuppsättningen som filen går till när den delas upp före träningen. Läs mer om datadelning här. Möjliga värden för det här fältet är Train och Test. Train
regionOffset Den inkluderande teckenpositionen i början av texten. 0
regionLength Längden på avgränsningsrutan i termer av UTF16-tecken. Utbildningen tar endast hänsyn till data i den här regionen. 500
category Den typ av entitet som är associerad med det angivna textintervallet. Entity1
offset Startpositionen för entitetstexten. 25
length Längden på entiteten när det gäller UTF16-tecken. 20
language {LANGUAGE-CODE} En sträng som anger språkkoden för dokumentet som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta dokumenten. Mer information om språkkoder som stöds finns i Språkstöd . en

Namngivningsregler för entitet

  1. Fördefinierade entitetsnamn är fördefinierade. De måste fyllas i med en fördefinierad komponent och den måste matcha entitetsnamnet.
  2. Nya användardefinierade entiteter (entiteter med inlärda komponenter eller märkt text) kan inte använda fördefinierade entitetsnamn.
  3. Nya användardefinierade entiteter kan inte fyllas med fördefinierade komponenter eftersom fördefinierade komponenter måste matcha deras associerade entitetsnamn och inte har några etiketterade data tilldelade till dem i dokumentmatrisen.

Nästa steg

  • Du kan importera etiketterade data till projektet direkt. Lär dig hur du importerar projekt
  • Mer information om hur du etiketterar dina data finns i artikeln instruktioner.
  • När du är klar med att märka dina data kan du träna din modell.