Assegnare etichette ai dati
Assegnare etichette ai dati, ovvero contrassegnarli, in modo corretto è fondamentale nel processo di creazione di un modello di estrazione di entità personalizzato. Le etichette identificano esempi di entità specifiche nel testo usato per eseguire il training del modello. I tre aspetti su cui concentrare l'attenzione sono i seguenti:
- Coerenza: assegnare etichette ai dati allo stesso modo in tutti i file per il training. La coerenza consente al modello di apprendere senza input in conflitto.
- Precisione: assegnare etichette alle entità in modo coerente, senza parole aggiuntive superflue. La precisione garantisce che solo i dati corretti siano inclusi nell'entità estratta.
- Completezza: assegnare etichette a tutti i dati, senza lasciarsi sfuggire nessuna entità. La completezza consente al modello di riconoscere sempre le entità presenti.
Come assegnare etichette ai dati
Language Studio è il metodo più semplice per assegnare etichette ai dati. Language Studio consente di visualizzare il file, selezionare l'inizio e la fine dell'entità e specificare di quale entità si tratta.
Ogni etichetta identificata viene salvata in un file che risiede nell'account di archiviazione con il set di dati, in un file JSON generato automaticamente. Questo file viene quindi usato dal modello per apprendere come estrarre entità personalizzate. È possibile specificare questo file durante la creazione del progetto (ad esempio, se si importano le stesse etichette da un progetto diverso), ma il file deve essere nei formati di dati Riconoscimento entità denominata personalizzati accettati. Ad esempio:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Campo | Descrizione |
---|---|
documents |
Matrice di documenti etichettati |
location |
Percorso del file all'interno del contenitore connesso al progetto |
language |
Lingua del file |
entities |
Matrice di entità presenti nel documento corrente |
regionOffset |
Posizione del carattere inclusivo per l'inizio del testo |
regionLength |
Lunghezza in caratteri dei dati usati nel training |
category |
Nome dell'entità da estrarre |
labels |
Matrice di entità etichettate nei file |
offset |
Posizione del carattere inclusivo per l'inizio dell'entità |
length |
Lunghezza in caratteri dell'entità |
dataset |
Set di dati a cui è assegnato il file |