Assegnare etichette ai dati

Completato

Assegnare etichette ai dati, ovvero contrassegnarli, in modo corretto è fondamentale nel processo di creazione di un modello di estrazione di entità personalizzato. Le etichette identificano esempi di entità specifiche nel testo usato per eseguire il training del modello. I tre aspetti su cui concentrare l'attenzione sono i seguenti:

  • Coerenza: assegnare etichette ai dati allo stesso modo in tutti i file per il training. La coerenza consente al modello di apprendere senza input in conflitto.
  • Precisione: assegnare etichette alle entità in modo coerente, senza parole aggiuntive superflue. La precisione garantisce che solo i dati corretti siano inclusi nell'entità estratta.
  • Completezza: assegnare etichette a tutti i dati, senza lasciarsi sfuggire nessuna entità. La completezza consente al modello di riconoscere sempre le entità presenti.

Screenshot of labeling an entity in Language Studio.

Come assegnare etichette ai dati

Language Studio è il metodo più semplice per assegnare etichette ai dati. Language Studio consente di visualizzare il file, selezionare l'inizio e la fine dell'entità e specificare di quale entità si tratta.

Ogni etichetta identificata viene salvata in un file che risiede nell'account di archiviazione con il set di dati, in un file JSON generato automaticamente. Questo file viene quindi usato dal modello per apprendere come estrarre entità personalizzate. È possibile specificare questo file durante la creazione del progetto (ad esempio, se si importano le stesse etichette da un progetto diverso), ma il file deve essere nei formati di dati Riconoscimento entità denominata personalizzati accettati. Ad esempio:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Campo Descrizione
documents Matrice di documenti etichettati
location Percorso del file all'interno del contenitore connesso al progetto
language Lingua del file
entities Matrice di entità presenti nel documento corrente
regionOffset Posizione del carattere inclusivo per l'inizio del testo
regionLength Lunghezza in caratteri dei dati usati nel training
category Nome dell'entità da estrarre
labels Matrice di entità etichettate nei file
offset Posizione del carattere inclusivo per l'inizio dell'entità
length Lunghezza in caratteri dell'entità
dataset Set di dati a cui è assegnato il file