Etichettare i dati con Language Studio
L'etichettatura dei dati è un passaggio fondamentale del ciclo di vita di sviluppo. In questo passaggio i documenti vengono etichettati con le nuove entità definite nello schema per popolare i relativi componenti appresi. Questi dati verranno usati nel passaggio successivo, durante il training del modello, in modo che il modello possa apprendere quali entità estrarre dai dati etichettati. Se i dati sono già stati etichettati, è possibile importarli direttamente nel progetto, ma è necessario accertarsi che i dati rispettino il formato dati accettato. Per altre informazioni sull'importazione di dati etichettati nel progetto, vedere Creare un progetto. Se i dati non sono stati ancora etichettati, è possibile etichettarli in Language Studio.
Prerequisiti
Prima di etichettare i dati,sono necessari:
- Un progetto creato correttamente con un account di archiviazione BLOB di Azure configurato
- Dati di testo caricati nell'account di archiviazione.
Per altre informazioni, vedere il ciclo di vita di sviluppo di un progetto.
Linee guida per l'etichettatura dei dati
Dopo la preparazione dei dati, la progettazione dello schema e la creazione del progetto, sarà necessario etichettare i dati. L'etichettatura dei dati è importante perché consente al modello di sapere quali parole saranno associate ai tipi di entità da estrarre. Quando si etichettano i dati in Language Studio (o si importano dati etichettati), queste etichette verranno archiviate nel documento JSON nel contenitore di archiviazione connesso al progetto.
Durante l’etichettatura dei dati, tenere presente quanto segue:
- Non è possibile aggiungere etichette per le entità di Analisi testuale per la salute perché sono entità predefinite già sottoposte a training. È possibile aggiungere etichette solo alle nuove categorie di entità definite durante la definizione dello schema.
Per migliorare il richiamo di un'entità predefinita, è possibile estenderlo aggiungendo un componente elenco durante la definizione dello schema.
In generale, un numero maggiore di dati etichettati produce risultati migliori, purché i dati siano stati etichettati in modo accurato.
La precisione, la coerenza e la completezza dei dati etichettati sono fattori chiave per le prestazioni del modello.
- Etichettare con precisione: etichettare sempre ogni entità con il tipo corretto. Includere solo gli elementi da estrarre, evitando dati non necessari nelle etichette.
- Etichettare con coerenza: la stessa entità deve avere la stessa etichetta in tutti i documenti.
- Etichetta in maniera completa: etichettare tutte le istanze dell'entità in tutti i documenti.
Nota
Non esiste un numero fisso di etichette in grado di garantire prestazioni ottimali del modello. Le prestazioni del modello dipendono dalla possibile ambiguità nello schema e dalla qualità dei dati etichettati. Tuttavia, è consigliabile avere circa 50 istanze etichettate per tipo di entità.
Assegnare etichette ai dati
Usare la procedura seguente per etichettare i dati:
Accedere alla pagina del progetto in Language Studio.
Nel menu a sinistra selezionare Etichettatura dati. È possibile trovare un elenco di tutti i documenti nel contenitore di archiviazione.
Suggerimento
È possibile usare i filtri nel menu in alto per visualizzare i documenti non etichettati in modo da poter iniziare a etichettarli. È possibile anche usare i filtri per visualizzare i documenti etichettati con un tipo di entità specifico.
Passare alla vista dei singoli documenti dal lato sinistro nel menu in alto o selezionare un documento specifico per avviare l'etichettatura. A sinistra è possibile trovare un elenco di tutti i documenti
.txt
disponibili nel progetto. È possibile usare il pulsante Indietro e Avanti nella parte inferiore della pagina per spostarsi tra i documenti.Nota
Se sono state abilitate più lingue per il progetto, nel menu in alto è presente un elenco a discesa Lingua che consente di selezionare la lingua di ogni documento. I progetti multilingue non supportano l’uso dell’ebraico.
Nel riquadro a destra è possibile usare il pulsanteAggiungi tipo di entità per aggiungere entità aggiuntive al progetto saltato durante la definizione dello schema.
Sono disponibili due opzioni per etichettare un documento:
Opzione Descrizione Etichettare usando un pennello Selezionare l'icona pennello accanto a un tipo di entità nel riquadro a destra, quindi evidenziare il testo nel documento da annotare con questo tipo di entità. Etichettare usando un menu Evidenziare la parola da etichettare come entità per visualizzare un menu. Selezionare il tipo di entità da assegnare per l’entità. Lo screenshot seguente mostra l'etichettatura effettuata con un pennello.
Nel riquadro a destra sotto al pivot Etichette, è possibile trovare tutti i tipi di entità del progetto e il numero di istanze etichettate per ogni entità. Le entità predefinite verranno visualizzate a titolo di riferimento, ma non sarà possibile effettuare l’etichettatura per queste entità predefinite perché sono già state sottoposte a training.
Nella sezione inferiore del riquadro a destra è possibile aggiungere il documento corrente visualizzato al set di training o al set di test. Per impostazione predefinita, tutti i documenti vengono aggiunti al set di training. Per informazioni su come vengono usati per il training e la valutazione del modello, vedere Set di training e test.
Suggerimento
Se si prevede di usare la suddivisione automatica dei dati, usare l'opzione predefinita per assegnare tutti i documenti nel set di training.
Nel pivot Distribuzione, è possibile visualizzare la distribuzione tra set di training e di test. Sono disponibili due opzioni di visualizzazione:
- Istanze totali, in cui è possibile visualizzare il numero di tutte le istanze etichettate di un tipo di entità specifico.
- Documenti con almeno un'etichetta, in cui ogni documento viene conteggiato se contiene almeno un'istanza etichettata dell’entità.
Durante l'etichettatura, le modifiche verranno sincronizzate periodicamente; se non sono ancora state salvate, verrà visualizzato un avviso nella parte superiore della pagina. Per il salvataggio manuale, selezionare il pulsante Salva etichette nella parte inferiore della pagina.
Rimuovere etichette
Per rimuovere un'etichetta
- Selezionare l'entità da cui rimuovere un'etichetta.
- Scorrere il menu visualizzato e selezionare Rimuovi etichetta.
Eliminare entità
Non è possibile eliminare alcuna entità già sottoposte a training di Analisi testuale per la salute perché hanno un componente predefinito. È possibile eliminare solo le categorie di entità appena definite. Per eliminare un'entità, selezionare l'icona di eliminazione accanto all'entità da rimuovere. L'eliminazione di un’entità rimuoverà tutte le relative istanze etichettate dal set di dati.
Passaggi successivi
Dopo aver etichettato i dati, è possibile iniziare il training di un modello in modo che apprenda in base ai dati.