Tips voor het bouwen van gelabelde gegevenssets

Artikel
10/16/2024

Deze inhoud is van toepassing op: v4.0 (preview) | Vorige versies: v3.1 (GA) v3.0 (GA)

Deze inhoud is van toepassing op: v3.1 (GA) | Nieuwste versie: v4.0 (preview) | Vorige versies: v3.0

Deze inhoud is van toepassing op: v3.0 (GA) | Nieuwste versies: v4.0 (preview) v3.1

Belangrijk

Aanbevolen procedures voor het genereren van gelabelde gegevenssets zijn alleen van toepassing op aangepaste sjabloon en aangepaste neurale modellen, voor aangepaste generatieve, verwijzen naar Custom Ative

In dit artikel worden de beste methoden beschreven voor het labelen van aangepaste modelgegevenssets in Document Intelligence Studio. Het labelen van documenten kan tijdrovend zijn wanneer u een groot aantal labels, lange documenten of documenten met verschillende structuur hebt. Met deze tips kunt u documenten efficiënter labelen.

Video: Aanbevolen procedures voor aangepaste labels

De volgende video is de tweede van twee presentaties die zijn bedoeld om u te helpen aangepaste modellen te bouwen met een hogere nauwkeurigheid (in de eerste presentatie wordt uitgelegd hoe u een evenwichtige gegevensset maakt).
We onderzoeken aanbevolen procedures voor het labelen van uw geselecteerde documenten. Met semantisch relevante en consistente labels ziet u een verbetering in de modelprestaties.

Zoeken

De Studio bevat nu een zoekvak voor exemplaren wanneer u weet dat u specifieke woorden moet vinden om te labelen, maar weet alleen niet waar ze in het document moeten worden gevonden. Zoek het woord of de woordgroep en navigeer naar de specifieke sectie in het document om het exemplaar te labelen.

Tabellen met automatisch labelen

Tabellen kunnen lastig te labelen zijn wanneer ze veel rijen of dichte tekst hebben. Als in de indelingstabel het gewenste resultaat wordt geëxtraheerd, moet u dat resultaat gewoon gebruiken en het labelproces overslaan. In gevallen waarin de indelingstabel niet precies wat u nodig hebt, kunt u beginnen met het genereren van het tabelveld op basis van de waardenindelingen. Selecteer eerst het tabelpictogram op de pagina en selecteer op de knop Automatisch labelen. Vervolgens kunt u de waarden naar behoefte bewerken. Automatisch label ondersteunt momenteel alleen tabellen met één pagina.

Shift selecteren

Wanneer u een grote tekstspanne labelt, in plaats van elk woord in het bereik te markeren, houdt u de shift-toets ingedrukt terwijl u de woorden selecteert om het labelen te versnellen en ervoor te zorgen dat u geen woorden in de tekstspanne mist.

Regiolabels

Een tweede optie voor het labelen van grotere tekstbereiken is het gebruik van regiolabels. Wanneer regiolabels worden gebruikt, worden de OCR resultaten ingevuld in de waarde tijdens de training. Het verschil tussen het selecteren van diensten en regiolabels is alleen in de visuele feedback die de benadering voor het labelen van diensten biedt.

Overlappende velden labelen

Overlappende velden worden ondersteund voor velden en tabelcellen. Als u verwacht dat uw analyseresultaten overlappende velden bevatten, moet u ten minste één voorbeeld toevoegen aan de trainingsgegevensset met overlappende velden. Als u een overlappend veld wilt labelen, gebruikt u de functie regiolabels om de regio's voor elk veld te selecteren. Zowel volledige als gedeeltelijke overlappingen worden ondersteund. Eén woord in het document kan slechts worden gelabeld voor twee velden.

Subtypen van velden

Wanneer u een veld maakt, selecteert u het juiste subtype om naverwerking te minimaliseren. Selecteer bijvoorbeeld de dmy optie voor datums om de waarden in een dd-mm-yyyy indeling te extraheren.

Volgende stappen

Meer informatie over aangepaste labels:

Aangepaste labels
Meer informatie over aangepaste sjabloonmodellen:

Aangepaste modellen

Delen via