Formati di dati accettati nell'analisi testuale personalizzata per la salute
Usare questo articolo per ottenere informazioni sulla formattazione dei dati da importare nell’analisi testuale personalizzata per la salute.
Se si sta tentando di importare dati in Analisi testuale personalizzata per la salute, è necessario rispettare un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.
Il file delle etichette deve avere il json
formato indicato di seguito per poter essere usato per l’importazione di etichette in un progetto.
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Chiave | Segnaposto | Valore | Esempio |
---|---|---|---|
multilingual |
true |
Valore booleano che consente l’inclusione di documenti in diverse lingue nel set di dati; quando il modello viene distribuito, è possibile eseguire query sul modello in qualunque lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue. | true |
projectName |
{PROJECT-NAME} |
Nome progetto | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
Nome contenitore | mycontainer |
entities |
Array contenente tutti i tipi di entità inclusi nel progetto. Sono i tipi di entità che verranno estratti dai documenti. | ||
category |
Il nome del tipo di entità, che può essere definito dall'utente per le nuove definizioni di entità oppure predefinito per le entità predefinite. Per altre informazioni, vedere le regole di denominazione delle entità indicate di seguito. | ||
compositionSetting |
{COMPOSITION-SETTING} |
Regola che definisce come gestire più componenti nell'entità. Le opzioni sono combineComponents o separateComponents . |
combineComponents |
list |
Array contenente tutti gli elenchi secondari presenti nel progetto per un'entità specifica. Gli elenchi possono essere aggiunti alle entità predefinite o alle nuove entità con i componenti appresi. | ||
sublists |
[] |
Array contenente elenchi secondari. Ogni elenco secondario è una chiave con i relativi valori associati. | [] |
listKey |
One |
Un valore normalizzato per l'elenco di sinonimi su cui eseguire il mapping nella stima. | One |
synonyms |
[] |
Array contenente tutti i sinonimi | sinonimo |
language |
{LANGUAGE-CODE} |
Una stringa che specifica il codice lingua per il sinonimo nell’elenco secondario. Se il progetto è un progetto multilingue e si desidera supportare l'elenco di sinonimi per tutte le lingue nel progetto, è necessario aggiungere in modo esplicito i sinonimi a ogni lingua. Per altre informazioni sui codici lingua supportati, vedere Supporto lingue. | en |
values |
"EntityNumberone" , "FirstEntity" |
Un elenco di stringhe separate da virgole che corrisponderà perfettamente per l'estrazione e il mapping alla chiave dell’elenco. | "EntityNumberone" , "FirstEntity" |
prebuilts |
MedicationName |
Il nome del componente predefinito che popola l'entità predefinita. Per impostazione predefinita, nel progetto vengono caricate automaticamente le entità predefinite, ma è possibile estenderle con i componenti dell’elenco nel file di etichette. | MedicationName |
documents |
Array contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. | [] | |
location |
{DOCUMENT-NAME} |
Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, deve corrispondere al nome del documento. | doc1.txt |
dataset |
{DATASET} |
Set di test a cui verrà sottoposto il file quando viene diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono Train e Test . |
Train |
regionOffset |
La posizione del carattere inclusivo dell'inizio del testo. | 0 |
|
regionLength |
La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area. | 500 |
|
category |
Il tipo di entità associata all'intervallo di testo specificato. | Entity1 |
|
offset |
La posizione iniziale per il testo dell'entità. | 25 |
|
length |
La lunghezza dell’entità in termini di caratteri UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Una stringa che specifica il codice lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice lingua della maggior parte dei documenti. Per altre informazioni sui codici lingua supportati, vedere Supporto lingue. | en |
Regole di denominazione delle entità
- I nomi di entità predefiniti sono predefiniti. Devono essere popolati con un componente predefinito e devono corrispondere al nome dell'entità.
- Le nuove entità definite dall'utente (entità con componenti appresi o testo etichettato) non possono usare nomi di entità predefiniti.
- Le nuove entità definite dall'utente non possono essere popolate con componenti predefiniti poiché questi devono corrispondere ai nomi delle entità associate e non hanno dati etichettati assegnati nella matrice di documenti.
Passaggi successivi
- È possibile importare direttamente i dati etichettati nel progetto. Informazioni su come importare un progetto
- Per altre informazioni sull’etichettatura dei dati, vedere l’articolo esplicativo.
- Dopo aver etichettato i dati, è possibile eseguire il training del modello.