Tips voor het bouwen van gelabelde gegevenssets
Deze inhoud is van toepassing op: v3.1 (GA) | Nieuwste versie: v4.0 (preview) | Vorige versies: v3.0
Deze inhoud is van toepassing op: v3.0 (GA) | Nieuwste versies: v4.0 (preview) v3.1
Belangrijk
Aanbevolen procedures voor het genereren van gelabelde gegevenssets zijn alleen van toepassing op aangepaste sjabloon en aangepaste neurale modellen, voor aangepaste generatieve, verwijzen naar Custom Ative
In dit artikel worden de beste methoden beschreven voor het labelen van aangepaste modelgegevenssets in Document Intelligence Studio. Het labelen van documenten kan tijdrovend zijn wanneer u een groot aantal labels, lange documenten of documenten met verschillende structuur hebt. Met deze tips kunt u documenten efficiënter labelen.
Video: Aanbevolen procedures voor aangepaste labels
De volgende video is de tweede van twee presentaties die zijn bedoeld om u te helpen aangepaste modellen te bouwen met een hogere nauwkeurigheid (in de eerste presentatie wordt uitgelegd hoe u een evenwichtige gegevensset maakt).
We onderzoeken aanbevolen procedures voor het labelen van uw geselecteerde documenten. Met semantisch relevante en consistente labels ziet u een verbetering in de modelprestaties.
Zoeken
De Studio bevat nu een zoekvak voor exemplaren wanneer u weet dat u specifieke woorden moet vinden om te labelen, maar weet alleen niet waar ze in het document moeten worden gevonden. Zoek het woord of de woordgroep en navigeer naar de specifieke sectie in het document om het exemplaar te labelen.
Tabellen met automatisch labelen
Tabellen kunnen lastig te labelen zijn wanneer ze veel rijen of dichte tekst hebben. Als in de indelingstabel het gewenste resultaat wordt geëxtraheerd, moet u dat resultaat gewoon gebruiken en het labelproces overslaan. In gevallen waarin de indelingstabel niet precies wat u nodig hebt, kunt u beginnen met het genereren van het tabelveld op basis van de waardenindelingen. Selecteer eerst het tabelpictogram op de pagina en selecteer op de knop Automatisch labelen. Vervolgens kunt u de waarden naar behoefte bewerken. Automatisch label ondersteunt momenteel alleen tabellen met één pagina.
Shift selecteren
Wanneer u een grote tekstspanne labelt, in plaats van elk woord in het bereik te markeren, houdt u de shift-toets ingedrukt terwijl u de woorden selecteert om het labelen te versnellen en ervoor te zorgen dat u geen woorden in de tekstspanne mist.
Regiolabels
Een tweede optie voor het labelen van grotere tekstbereiken is het gebruik van regiolabels. Wanneer regiolabels worden gebruikt, worden de OCR
resultaten ingevuld in de waarde tijdens de training. Het verschil tussen het selecteren van diensten en regiolabels is alleen in de visuele feedback die de benadering voor het labelen van diensten biedt.
Overlappende velden labelen
Overlappende velden worden ondersteund voor velden en tabelcellen. Als u verwacht dat uw analyseresultaten overlappende velden bevatten, moet u ten minste één voorbeeld toevoegen aan de trainingsgegevensset met overlappende velden. Als u een overlappend veld wilt labelen, gebruikt u de functie regiolabels om de regio's voor elk veld te selecteren. Zowel volledige als gedeeltelijke overlappingen worden ondersteund. Eén woord in het document kan slechts worden gelabeld voor twee velden.
Subtypen van velden
Wanneer u een veld maakt, selecteert u het juiste subtype om naverwerking te minimaliseren. Selecteer bijvoorbeeld de dmy
optie voor datums om de waarden in een dd-mm-yyyy
indeling te extraheren.
Volgende stappen
Meer informatie over aangepaste labels:
Meer informatie over aangepaste sjabloonmodellen: