Dela via


FormPage Klass

Representerar en sida som känns igen från indatadokumentet. Innehåller rader, ord, urvalsmarkeringar, tabeller och sidmetadata.

Nytt i version v2.1: selection_marks egenskap, stöd för to_dict och from_dict metoder

Arv
builtins.object
FormPage

Konstruktor

FormPage(**kwargs: Any)

Metoder

from_dict

Konverterar en diktamen i form av en FormPage till själva modellen.

to_dict

Returnerar en diktamensrepresentation av FormPage.

from_dict

Konverterar en diktamen i form av en FormPage till själva modellen.

from_dict(data: Dict) -> FormPage

Parametrar

data
dict
Obligatorisk

En ordlista i form av FormPage.

Returer

Formulärsida

Returtyp

to_dict

Returnerar en diktamensrepresentation av FormPage.

to_dict() -> Dict

Returer

dict

Returtyp

Attribut

height

Bildens/PDF-filens höjd i bildpunkter/tum.

height: float

lines

När include_field_elements är inställt på true returneras en lista med identifierade textrader. För anrop för att identifiera innehåll fylls den här listan alltid i. Det maximala antalet rader som returneras är 300 per sida. Linjerna sorteras uppifrån och ned, från vänster till höger, men i vissa fall behandlas närhet med högre prioritet. Eftersom sorteringsordningen beror på den identifierade texten kan den ändras mellan bilder och OCR-versionsuppdateringar. Affärslogiken bör därför byggas på den faktiska radplatsen i stället för på order. Läsordningen för rader kan anges av nyckelordsargumentet reading_order (Obs! reading_order stöds endast i begin_recognize_content och begin_recognize_content_from_url).

lines: List[FormLine]

page_number

Det 1-baserade numret på sidan där det här innehållet finns.

page_number: int

selection_marks

Lista över markeringsmarkeringar som extraherats från sidan.

selection_marks: List[FormSelectionMark]

tables

En lista över extraherade tabeller som finns på en sida.

tables: List[FormTable]

text_angle

Den allmänna orienteringen av texten i medsols riktning, mätt i grader mellan (-180, 180].

text_angle: float

unit

De LengthUnit som används av egenskaperna för bredd, höjd och avgränsningsruta. För bilder är enheten "pixel". För PDF är enheten "tum".

unit: str

width

Bredden på bilden/PDF-filen i bildpunkter/tum.

width: float