PDF-handlinger
Med PDF-handlinger kan du udtrække billeder, tekst og tabeller fra PDF-filer og arrangere sider for at oprette nye dokumenter.
Hvis du vil udtrække tekst fra en PDF-fil, skal du bruge handlingen Pak tekst ud fra PDF. I følgende eksempel udtrækkes tekst fra et bestemt udsnit af sider til en kodeordsbeskyttet fil. Adgangskoden er angivet under Avancerede indstillinger.
Hvis du vil udtrække tekster, der er arrangeret i en tabelformular, skal du aktivere indstillingen Optimer for strukturerede data for at forbedre resultaternes format og præcision.
Hvis du vil udtrække tabeller fra en PDF-fil, skal du installere Udpakningstabellerne fra PDF-handlingen, markere filen og angive de sider, der skal udtrækkes fra.
Handlingen opretter en variabel med navnet ExtractedPDFTables, som indeholder en liste over PDF-tabeloplysninger. Du kan finde oplysninger om denne type liste ved at gå til avancerede datatyper.
Bemærk
- Handlingen Udpak tabeller fra PDF bruger ikke optisk tegngenkendelse (OCR), så du kan ikke udtrække tekst, der ikke kan kopieres, fra de scannede PDF-filer.
- I biblioteket bag handlingen udtrækkes undertiden flere PDF-data, der ikke er tabeller. Denne funktionalitet minimerer risikoen for utilsigtet at udelade en rigtig tabel.
Ud over at udtrække oplysninger fra PDF-filer kan du oprette et nyt PDF-dokument ud fra en eksisterende fil ved hjælp af handlingen Udtræk sider fra PDF-fil til en ny PDF-fil.
Følgende eksempel vælger en kombination af bestemte sider og et område af sider.
Udtræk tekst fra PDF-fil
Du kan udtrække tekst fra en PDF-fil ved hjælp af handlingen "Pak tekst ud fra PDF". I handlingsegenskaberne kan du definere PDF-kildefilen og de sider, teksten skal udtrækkes fra. Under de avancerede egenskaber for handlinger kan du definere en adgangskode, hvis PDF-filen er beskyttet, og hvis programmet skal optimere for strukturerede data eller ej.
Inputparametre
Argument | Valgfrit | Accepterer | Standardværdi | Beskrivelse |
---|---|---|---|---|
PDF file | Nej | Filer | Den PDF-fil, der skal udtrækkes tekst fra. Angiv en filsti, en variabel, der indeholder en fil, eller en tekststi | |
Sider, der skal udtrækkes | I/R | Alle, enkelt, interval | Alle | Angiver, hvor mange sider der skal udtrækkes: Alle sider, en enkelt side eller et interval af sider |
Single page number | Nej | Numerisk værdi | Antallet af enkeltsider, der skal udtrækkes tekst fra | |
From page number | Nej | Numerisk værdi | Det første sidetal af de sider, der skal udtrækkes tekst fra | |
To page number | Nej | Numerisk værdi | Det sidste sidetal af de sider, der skal udtrækkes tekst fra | |
Adgangskode | Ja | Direkte krypteret input eller tekstværdi | PDF-filens adgangskode. Hvis PDF-filen ikke er beskyttet med adgangskode, skal det være tomt | |
Optimize for structured data | I/R | Boolesk værdi | Falsk | Angiv, om det formaterede layout i dokumentet skal registreres, og tekst udtrækkes i overensstemmelse hermed |
Variabler produceret
Argument | Type | Beskrivelse |
---|---|---|
ExtractedPDFText | Tekstværdi | Den tekst, der er udtrukket |
Undtagelser
Undtagelse | Beskrivelse |
---|---|
PDF-fil findes ikke | Fil findes ikke på den angivne sti |
Ugyldig adgangskode | Den angivne adgangskode er ugyldig |
Kunne ikke udtrække tekst | Der opstod en fejl under forsøg på at udtrække tekst |
Udpak tabeller fra PDF
Du kan udtrække tabeller, der findes i en PDF-fil, ved hjælp af handlingen Udpak tabeller fra PDF. I handlingsegenskaberne kan du definere PDF-filen og det sideområde, som tabellerne skal udtrækkes fra. Under de avancerede egenskaber for handlinger kan du definere en adgangskode, hvis en PDF-fil er beskyttet, definere, om tabellen har overskrifter eller ej, og endelig angive, om tabeller, hvor sidemargener krydses, skal flettes eller ej.
Inputparametre
Argument | Valgfrit | Accepterer | Standardværdi | Beskrivelse |
---|---|---|---|---|
PDF-fil | Nej | Filer | Den PDF-fil, der skal udtrækkes tabeller fra. Angiv en filsti, en variabel, der indeholder en fil, eller en tekststi | |
Sider, der skal udtrækkes | I/R | Alle, Enkelt, Område | Alle | Angiver, hvor mange sider der skal pakkes tabeller ud fra: alle sider, en enkelt side eller et område af sider |
Enkelt sidenummer | Nej | Numerisk værdi | Nummeret på den enkelte side, som tabeller skal pakkes ud fra | |
Fra sidenummer | Nej | Numerisk værdi | Det første sidetal fra det sideområde, som tabeller skal pakkes ud fra | |
Til sidenummer | Nej | Numerisk værdi | Det sidste sidetal fra det sideområde, som tabeller skal pakkes ud fra | |
Adgangskode | Ja | Direkte krypteret input eller tekstværdi | PDF-filens adgangskode. Hvis PDF-filen ikke er beskyttet med adgangskode, skal det være tomt | |
Flet tabeller, der krydser sidemargener | I/R | Boolesk værdi | Sand | Angiver, om tabeller, der krydser margener på tværs af sider i det angivne sideområde, skal flettes |
Første linje indeholder kolonnenavne | I/R | Boolesk værdi | Sand | Angiver, om den første tabellinje indeholder kolonnenavne |
Variabler produceret
Argument | Type | Beskrivelse |
---|---|---|
ExtractedPDFTables | Liste over PDF-tabeloplysninger | De udpakkede tabeller med deres oplysninger som en liste |
Undtagelser
Undtagelse | Beskrivelse |
---|---|
PDF-fil findes ikke | Fil findes ikke på den angivne sti |
Ugyldig adgangskode | Den angivne adgangskode er ugyldig |
Tabeller kunne ikke pakkes ud | Der opstod en fejl under forsøg på at udtrække tabeller |
Udtræk billeder fra PDF-fil
Hvis du vil udtrække billeder fra en PDF-fil, kan du bruge handlingen Udtræk billeder fra PDF. I handlingsparametrene kan du definere PDF-filen og de sider, der skal udtrækkes billeder fra, navngivningskonventionen for de billeder, der udtrækkes, og destinationsplaceringen for de gemte billeder. Du kan også definere en adgangskode, hvis PDF-filen er beskyttet under de avancerede indstillinger.
Inputparametre
Argument | Valgfrit | Accepterer | Standardværdi | Beskrivelse |
---|---|---|---|---|
PDF file | Nej | Filer | Den PDF-fil, der skal udtrækkes billeder fra Angiv en filsti, en variabel, der indeholder en fil, eller en tekststi | |
Adgangskode | Ja | Direkte krypteret input eller tekstværdi | PDF-filens adgangskode. Hvis PDF-filen ikke er beskyttet med adgangskode, skal det være tomt | |
Page(s) to extract | I/R | Alle, Enkelt, Rækkevidde | Alle | Angiver, hvor mange sider der skal udtrækkes: Alle sider, en enkelt side eller et interval af sider |
Single page number | Nej | Numerisk værdi | Antallet af enkeltsider, der skal udtrækkes billeder fra | |
From page number | Nej | Numerisk værdi | Det første sidenummer af de sider, der skal udtrækkes billeder fra | |
To page number | Nej | Numerisk værdi | Det sidste sidenummer af de sider, der skal udtrækkes billeder fra | |
Image(s) name | Nej | Tekstværdi | Sådan starter navnet på billederne. Eksempel på uddrag af billeder: GivenName_1, GivenName_2 | |
Save image(s) to | Nej | Mappe | Den mappe, hvor de udtrukne billeder gemmes som png-filer |
Variabler produceret
Denne handling producerer ingen variabler.
Undtagelser
Undtagelse | Beskrivelse |
---|---|
Ugyldig adgangskode | Den angivne adgangskode er ugyldig |
Kunne ikke udtrække billeder | Angiver, at der opstod en fejl under udtræk af billeder fra de angivne sider i PDF-filen |
Mappen findes ikke | Angiver, at mappen ikke findes |
PDF-fil findes ikke | Fil findes ikke på den angivne sti |
Udtræk sider fra PDF-fil til en ny PDF-fil
Du kan oprette en ny PDF-fil ved at udtrække sider fra en eksisterende PDF-fil ved hjælp af handlingen Udtræk sider til en ny PDF-fil. I handlingsparametrene kan du definere den PDF-fil, som siderne skal udtrækkes fra, hvilke sider der skal udtrækkes, placeringen af den nye PDF-fil, og hvad der skal ske, hvis der allerede findes en fil med samme navn og filtypenavn. Under de avancerede egenskaber kan du til sidst definere en adgangskode, hvis PDF-kilden er beskyttet.
Inputparametre
Argument | Valgfrit | Accepterer | Standardværdi | Beskrivelse |
---|---|---|---|---|
PDF file | Nej | Filer | Den PDF-fil, der skal udtrækkes sider fra Angiv en filsti, en variabel, der indeholder en fil, eller en tekststi | |
Adgangskode | Ja | Direkte krypteret input eller tekstværdi | PDF-filens adgangskode. Hvis PDF-filen ikke er beskyttet med adgangskode, skal det være tomt | |
Page selection | Nej | Tekstværdi | Indeksnumrene på de sider, der skal bevares (f. eks. 1,3,17-24) | |
Extracted PDF path | Nej | Filer | Den sti, hvor den udtrukne PDF-fil skal gemmes | |
If file exists | I/R | Overskriv, Overskriv ikke, Tilføj sekventiel suffiks | Tilføj sekventielt suffiks | Angiver, hvad der skal gøres i tilfælde af, at output-PDF-filen allerede findes |
Variabler produceret
Argument | Type | Beskrivelse |
---|---|---|
ExtractedPDF | Filer | Den nye PDF-fil |
Undtagelser
Undtagelse | Beskrivelse |
---|---|
Ugyldig adgangskode | Den angivne adgangskode er ugyldig |
PDF-fil findes ikke | Fil findes ikke på den angivne sti |
Side er uden for de tilladte grænser | Angiver, at en eller flere sider ligger uden for PDF-filens grænser |
Ugyldigt sidevalg | Angiver, at de angivne sider ikke er gyldige for PDF-filen |
Kunne ikke udtrække ny PDF-fil | Angiver, at der opstod en fejl under forsøg på at udtrække nyt PDF-dokument |
Flet PDF-filer
Fletter flere PDF-filer til en ny.
Du kan bruge handlingen Flet PDF-filer til at oprette to eller flere PDF-filer og flette dem sammen i en enkelt fil. De filer, der skal flettes kan angives i en fomular med en liste eller omgives af dobbelte anførselstegn, og adskil dem med en afgrænser. Du kan også angive adgangskoder til PDF-filerne, hvis de er beskyttet med adgangskode.
Inputparametre
Argument | Valgfrit | Accepterer | Standardværdi | Beskrivelse |
---|---|---|---|---|
PDF files | Nej | Liste over filer | Filer, der skal flettes. Sæt flere filer i dobbelte anførselstegn ("), og adskil dem med en afgrænser eller brug en liste over filer | |
Merged PDF path | Nej | Filer | Den sti, hvor den flettede PDF-fil skal gemmes | |
If file exists | I/R | Overskriv, Overskriv ikke, Tilføj sekventiel suffiks | Tilføj sekventielt suffiks | Angiver, hvad der skal gøres i tilfælde af, at filen allerede findes |
Adgangskoder | Ja | Direkte krypteret input eller tekstværdi | Separerede adgangskoder. Rækkefølgen skal være den samme som i PDF-input. Hvis PDFs-filen ikke er beskyttet med adgangskode, skal det være tomt | |
Delimiter | Nej | Tekstværdi | , | En brugerdefineret adgangskodeafgrænser. Denne afgrænser skal ikke være en del af adgangskoderne |
Variabler produceret
Argument | Type | Beskrivelse |
---|---|---|
MergedPDF | Filer | Den flettede PDF-fil |
Undtagelser
Undtagelse | Beskrivelse |
---|---|
PDF-fil findes ikke | Fil findes ikke på den angivne sti |
Ugyldig adgangskode | Den angivne adgangskode er ugyldig |
Kunne ikke flette PDF-filer | Angiver, at der opstod en fejl under fletning af filer |