Condividi tramite


Suggerimenti per la creazione di set di dati etichettati

Questo contenuto si applica a:segno di spunta v4.0 (anteprima) | Versioni precedenti: blue-checkmark v3.1 (disponibilità generale) blue-checkmark v3.0 (disponibilità generale)

Questo contenuto si applica a: segno di spunta v3.1 (disponibilità generale) | Ultima versione: purple-checkmark v4.0 (anteprima) | Versioni precedenti: blue-checkmark v3.0

Questo contenuto si applica a: segno di spunta v3.0 (disponibilità generale) | Ultime versioni: purple-checkmark v4.0 (anteprima) segno di spunta viola v3.1

Importante

Le procedure consigliate per la generazione di set di dati etichettati si applicano solo ai modelli personalizzati e ai modelli neurali personalizzati; per i modelli generativi personalizzati, vedere Modelli generativi personalizzati

Questo articolo illustra i metodi migliori per l'etichettatura di set di dati di modelli personalizzati in Document Intelligence Studio. L'etichettatura dei documenti può richiedere tempi lunghi nel caso di un numero elevato di etichette, di documenti lunghi o di documenti con una struttura variabile. Questi suggerimenti consentono di etichettare i documenti in modo più efficiente.

Video: Procedure consigliate per le etichette personalizzate

  • Il video seguente è la seconda di due presentazioni destinate a facilitare la creazione di modelli personalizzati con una maggiore accuratezza (la prima presentazione esplora Come creare un set di dati bilanciato).

  • Verranno illustrate le procedure consigliate per l'etichettatura di documenti selezionati. Con l'etichettatura pertinente e coerente a livello semantico, si noterà un miglioramento delle prestazioni dei modelli.

Studio include ora una casella di ricerca per le istanze quando si sa che è necessario trovare parole specifiche da etichettare, ma non si sa dove si trovano nel documento. È sufficiente cercare la parola o la frase e passare alla sezione specifica del documento per etichettare l'occorrenza.

Tabelle con etichette automatiche

Le tabelle possono risultare difficili da etichettare quando contengono molte righe o alta densità di testo. Se la tabella di layout estrae il risultato necessario, è sufficiente usare tale risultato e ignorare il processo di etichettatura. Nei casi in cui la tabella di layout non sia esattamente quella necessaria, è possibile iniziare generando il campo della tabella dai valori estratti dal layout. Per iniziare, selezionare l'icona della tabella nella pagina, quindi selezionare il pulsante per l'etichettatura automatica. È quindi possibile modificare i valori in base alle esigenze. L'etichettatura automatica supporta attualmente solo tabelle a pagina singola.

Selezione con MAIUSC

Per etichettare un intervallo di testo esteso, invece di contrassegnare ogni parola tenere premuto MAIUSC durante la selezione delle parole per velocizzare l'etichettatura e assicurarsi di non perdere parole.

Etichettatura di aree

Una seconda opzione per l'etichettatura di intervalli di testo più grandi consiste nell'uso dell'etichettatura di aree. Con l'etichettatura di aree, i risultati OCR vengono popolati nel valore in fase di training. La differenza tra la selezione con MAIUSC e l'etichettatura di aree è solo nel feedback visivo fornito dall'approccio con MAIUSC.

Etichettare i campi sovrapposti

I campi sovrapposti sono supportati per i campi e le celle della tabella. Se si prevede che i risultati di analisi contengano campi sovrapposti, è necessario aggiungere almeno un campione al set di dati di training con le sovrapposizioni etichettate dei campi specifici. Per etichettare un campo sovrapposto, usare la funzionalità di etichettatura dell'area per selezionare le aree per ogni campo. Sono supportate sia sovrapposizioni complete che parziali. Qualsiasi singola parola nel documento può essere etichettata solo per due campi.

Sottotipi di campo

Quando si crea un campo, selezionare il sottotipo corretto per ridurre al minimo la post-elaborazione, ad esempio selezionare l'opzione dmy per le date per estrarre i valori in formato dd-mm-yyyy.

Passaggi successivi