De modellen Algemeen document, Lezen en Indeling gebruiken
Als u tekst, talen en andere informatie wilt extraheren uit documenten met onvoorspelbare structuren, kunt u het lees-, algemene document- of indelingsmodel gebruiken.
In uw pollingbedrijf sturen klanten en partners vaak specificaties, offertes, werkverklaringen en andere documenten met onvoorspelbare structuren. U wilt weten of Azure AI Document Intelligence waarden uit deze documenten kan analyseren en extraheren.
Hier vindt u informatie over de vooraf gemaakte modellen die Microsoft biedt voor algemene documenten.
Het leesmodel gebruiken
Met het leesmodel van Azure AI Document Intelligence worden gedrukte en handgeschreven tekst uit documenten en afbeeldingen geëxtraheerd. Het wordt gebruikt om tekstextractie te bieden in alle andere vooraf gedefinieerde modellen.
Het leesmodel kan ook de taal detecteren waarin een tekstregel is geschreven en classificeren of deze handgeschreven of afgedrukte tekst is.
Notitie
Het leesmodel ondersteunt meer talen voor afgedrukte tekst dan handgeschreven tekst. Raadpleeg de documentatie om de huidige lijst met ondersteunde talen weer te geven.
Voor PDF- of TIFF-bestanden met meerdere pagina's kunt u de pages
parameter in uw aanvraag gebruiken om een paginabereik voor de analyse te herstellen.
Het leesmodel is ideaal als u woorden en lijnen wilt extraheren uit documenten zonder vaste of voorspelbare structuur.
Het algemene documentmodel gebruiken
Het algemene documentmodel breidt de functionaliteit van het leesmodel uit door de detectie van sleutel-waardeparen, entiteiten, selectiemarkeringen en tabellen toe te voegen. Het model kan deze waarden extraheren uit gestructureerde, semi-gestructureerde en ongestructureerde documenten.
Het algemene documentmodel is het enige vooraf samengestelde model ter ondersteuning van entiteitextractie. Het kan entiteiten herkennen, zoals personen, organisaties en datums, en deze wordt uitgevoerd op het hele document, niet alleen sleutel-waardeparen. Deze aanpak zorgt ervoor dat, wanneer structurele complexiteit het model heeft voorkomen dat een sleutel-waardepaar wordt geëxtraheerd, een entiteit in plaats daarvan kan worden geëxtraheerd. Houd er echter rekening mee dat soms één stuk tekst zowel een sleutel-waardepaar als een entiteit kan retourneren.
De typen entiteiten die u kunt detecteren, zijn:
Person
. De naam van een persoon.PersonType
. Een functie of rol.Location
. Gebouwen, geografische kenmerken, geopolitieke entiteiten.Organization
. Bedrijven, overheidsinstanties, sportclubs, muzikale bands en andere groepen.Event
. Sociale bijeenkomsten, historische evenementen, verjaardagen.Product
. Objecten die zijn gekocht en verkocht.Skill
. Een mogelijkheid die tot een persoon behoort.Address
. Postadres voor een fysieke locatie.Phone number
. Kiescodes en nummers voor mobiele telefoons en vaste lijnen.Email
. E-mailadressen.URL
. Webpaginaadressen.IP Address
. Netwerkadressen voor computerhardware.DateTime
. Kalenderdatums en -tijden van de dag.Quantity
. Numerieke metingen met hun eenheden.
Het indelingsmodel gebruiken
Naast het extraheren van tekst retourneert het indelingsmodel selectiemarkeringen en tabellen uit de invoerafbeelding of het PDF-bestand. Het is een goed model om te gebruiken wanneer u uitgebreide informatie nodig hebt over de structuur van een document.
Wanneer u een document digitaliseert, kan het in een vreemde hoek staan. Tabellen kunnen gecompliceerde structuren hebben met of zonder kopteksten, cellen die kolommen of rijen omvatten en onvolledige kolommen of rijen. Het indelingsmodel kan al deze problemen afhandelen om de volledige documentstructuur te extraheren.
Elke tabelcel wordt bijvoorbeeld geëxtraheerd met:
- De inhoudstekst.
- De grootte en positie van het begrenzingsvak.
- Als deze deel uitmaakt van een koptekstkolom.
- Indexen om de rij- en kolompositie in de tabel aan te geven.
Selectiemarkeringen worden geëxtraheerd met het begrenzingsvak, een betrouwbaarheidsindicator en of ze al dan niet zijn geselecteerd.
Meer informatie
- Taalondersteuning voor Azure AI Document Intelligence
- Leesmodel voor Azure AI Document Intelligence
- Algemeen documentmodel van Azure AI Document Intelligence
- Azure AI Document Intelligence-indelingsmodel