PDF-handlinger
PDF-handlingene gjør at du kan du trekke ut bilder, tekst og tabeller fra PDF-filer og ordne sider for å lage nye dokumenter.
Hvis du vil trekke ut tekst fra en PDF-fil, bruker du handlingen Trekk ut tekst fra PDF-fil. Eksemplet nedenfor trekker ut tekst fra et angitt sideområde i en passordbeskyttet fil. Passordet er angitt i avanserte innstillinger.
Hvis du vil trekke ut tekst som er ordnet i tabellform, aktiverer du Optimaliser for strukturerte data for å forbedre formatet og nøyaktigheten til resultatene.
Hvis du vil trekke ut tabeller fra en PDF-fil, distribuerer du handlingen Trekk ut tabeller fra PDF, velger filen og angir sidene du vil trekke ut fra.
Handlingen produserer variabelen ExtractedPDFTables som inneholder en liste over informasjon om PDF-tabell. Gå til Avanserte datatyper for å finne informasjon om denne typen liste.
Merk
- Handlingen Trekk ut tabeller fra PDF bruker ikke optisk tegngjenkjenning (OCR), så du kan ikke trekke ut tekst som ikke kan kopieres, fra skannede PDF-dokumenter.
- Biblioteket bak handlingen trekker av og til ut ytterligere PDF-data som ikke er tabeller. Denne funksjonaliteten minimerer risikoen for at en ekte tabell utelates ved et uhell.
I tillegg til å trekke ut informasjon fra PDF-filer kan du opprette et nytt PDF-dokument fra en eksisterende fil ved å bruke handlingen Trekk ut sider fra en PDF-fil til en ny PDF-fil.
Eksempelet nedenfor velger en kombinasjon av bestemte sider og et område med sider.
Trekk ut tekst fra PDF-fil
Du kan trekke ut tekst fra en PDF-fil ved å bruke handlingen Trekk ut tekst fra PDF-fil. I handlingsegenskapene kan du definere PDF-kildefilen og sidene som teksten skal trekkes ut fra. Under de avanserte handlingsegenskapene kan du definere et passord i tilfelle PDF-filen er beskyttet, og om motoren skal optimalisere for strukturerte data eller ikke.
Inndataparametere
Argument | Valgfritt | Godtar | Standardverdi | Bekrivelse |
---|---|---|---|---|
PDF file | Nei | Fil | PDF-filen du skal trekke ut tekst fra Angi en filbane, en variabel som inneholder en fil, eller en tekstbane | |
Sider som skal trekkes ut | Ikke tilgjengelig | Alle, enkel, område | Alle | Angir hvor mange sider som skal trekkes ut: alle sider, én side eller et sideområde |
Single page number | Nei | Numerisk verdi | Sidetallet til enkeltsiden som tekst skal trekkes ut fra | |
From page number | Nei | Numerisk verdi | Det første sidetallet i sideområdet du vil trekke ut tekst fra | |
To page number | Nei | Numerisk verdi | Det siste sidetallet i sideområdet du vil trekke ut tekst fra | |
Passord | Ja | Direkte krypterte inndata eller tekstverdi | Passordet for PDF-filen. Hvis PDF-filen ikke er passordbeskyttet, lar du dette være tomt | |
Optimaliser for strukturerte data | Ikke tilgjengelig | Boolsk verdi | False | Angi om formatert oppsett skal oppdages i dokumentet, og trekk ut tekst i henhold til dette |
Variabler produsert
Argument | Type | Bekrivelse |
---|---|---|
ExtractedPDFText | Tekstverdi | Den uttrukne teksten |
Unntak
Unntak | Beskrivelse |
---|---|
PDF-filen finnes ikke | Filen finnes ikke i angitt bane |
Ugyldig passord | Angitt passord er ugyldig |
Kan ikke trekke ut tekst | Feil under forsøk på å trekke ut tekst |
Trekk ut tabeller fra PDF
Du kan trekke ut tabeller fra en PDF-fil ved å bruke handlingen Trekk ut tabeller fra PDF. I handlingsegenskapene kan du definere PDF-filen og sideområdet som tabellene skal trekkes ut fra. Under de avanserte handlingsegenskapene kan du definere et passord i tilfelle en PDF-fil er beskyttet, angi om tabellen har overskrifter eller ikke, og til slutt om tabeller som har marger på tvers av sider, skal slås sammen eller ikke.
Inndataparametere
Argument | Valgfritt | Godtar | Standardverdi | Bekrivelse |
---|---|---|---|---|
PDF-fil | Nei | Fil | PDF-filen som tabeller skal trekkes ut fra. Angi en filbane, en variabel som inneholder en fil, eller en tekstbane | |
Sider som skal trekkes ut | Ikke tilgjengelig | Alle, enkel, område | Alle | Angir hvor mange sider det skal trekkes ut tabeller fra: alle sider, en enkeltside eller et sideområde |
Enkeltsidetallet | Nei | Numerisk verdi | Sidetallet for enkeltsiden som tabeller skal trekkes ut fra | |
Fra sidetallet | Nei | Numerisk verdi | Det første sidetallet fra sideområdet som tabeller skal trekkes ut fra | |
Til sidetallet | Nei | Numerisk verdi | Det siste sidetallet fra sideområdet som tabeller skal trekkes ut fra | |
Passord | Ja | Direkte krypterte inndata eller tekstverdi | Passordet for PDF-filen. Hvis PDF-filen ikke er passordbeskyttet, lar du dette være tomt | |
Slå sammen tabeller som har marger på tvers av sider | Ikke tilgjengelig | Boolsk verdi | True | Angir om tabeller som har marger på tvers av sider, skal slås sammen i det angitte sideområdet |
Første linje inneholder kolonnenavn | Ikke tilgjengelig | Boolsk verdi | True | Angir om den første tabellinjen inneholder kolonnenavn |
Variabler produsert
Argument | Type | Bekrivelse |
---|---|---|
ExtractedPDFTables | Liste over informasjon om PDF-tabell | De uttrukne tabellene med informasjonen som liste |
Unntak
Unntak | Beskrivelse |
---|---|
PDF-filen finnes ikke | Filen finnes ikke i angitt bane |
Ugyldig passord | Angitt passord er ugyldig |
Kan ikke trekke ut tabeller | Feil under forsøk på å trekke ut tabeller |
Trekk ut bilder fra PDF-fil
Hvis du vil trekke ut bilder fra en PDF-fil, kan du bruke handlingen Trekk ut bilder fra PDF-fil. I handlingsparameterne kan du angi PDF-filen og sidene du vil trekke ut bilder fra, navnekonvensjonen for de uttrukne bildene og målplasseringen for de lagrede bilder. Du kan også angi et passord i de avanserte innstillingene hvis PDF-filen er beskyttet.
Inndataparametere
Argument | Valgfritt | Godtar | Standardverdi | Bekrivelse |
---|---|---|---|---|
PDF file | Nei | Fil | PDF-filen du skal trekke ut bilder fra Angi en filbane, en variabel som inneholder en fil, eller en tekstbane | |
Passord | Ja | Direkte krypterte inndata eller tekstverdi | Passordet for PDF-filen. Hvis PDF-filen ikke er passordbeskyttet, lar du dette være tomt | |
Page(s) to extract | Ikke tilgjengelig | Alle, Enkel, Område | Alle | Angir hvor mange sider som skal trekkes ut: alle sider, én side eller et sideområde |
Single page number | Nei | Numerisk verdi | Sidetallet til enkeltsiden som bilder skal trekkes ut fra | |
From page number | Nei | Numerisk verdi | Det første sidetallet i sideområdet du vil trekke ut bilder fra | |
To page number | Nei | Numerisk verdi | Det siste sidetallet i sideområdet du vil trekke ut bilder fra | |
Image(s) name | Nei | Tekstverdi | Hvordan navnet på bildene starter. Eksempel på navn på uttrukne bilder: GittNavn_1, GittNavn_2 | |
Save image(s) to | Nei | Mappe | Mappen der de uttrukne bildene skal lagres som PNG-filer |
Variabler produsert
Denne handlingen gir ingen variabler.
Unntak
Unntak | Bekrivelse |
---|---|
Ugyldig passord | Angitt passord er ugyldig |
Kan ikke trekke ut bilder | Angir at det oppstod en feil mens bildene ble trukket ut fra de angitte sidene i PDF-filen |
Mappen finnes ikke | Angir at mappen ikke finnes |
PDF-filen finnes ikke | Filen finnes ikke i angitt bane |
Trekk ut sider fra en PDF-fil til en ny PDF-fil
Du kan opprette en ny PDF-fil ved å trekke ut sider fra en eksisterende PDF-fil med handlingen Sider i PDF-fil til en ny PDF-fil. I handlingsparameterne kan du angi PDF-filen som sidene skal trekkes ut fra, sidene som skal trekkes ut, plasseringen til den nye PDF-filen og hva som skal skje hvis en fil med samme navn og filtype allerede finnes. Til slutt kan du angi et passord i de avanserte egenskapene i tilfelle PDF-kildefilen er beskyttet.
Inndataparametere
Argument | Valgfritt | Godtar | Standardverdi | Bekrivelse |
---|---|---|---|---|
PDF file | Nei | Fil | PDF-filen du skal trekke ut sider fra. Angi en filbane, en variabel som inneholder en fil, eller en tekstbane | |
Passord | Ja | Direkte krypterte inndata eller tekstverdi | Passordet for PDF-filen. Hvis PDF-filen ikke er passordbeskyttet, lar du dette være tomt | |
Page selection | Nei | Tekstverdi | Indeksnumrene for sidene som skal beholdes (f.eks. 1,3,17–24) | |
Extracted PDF path | Nei | Fil | Lagringsbanen til den uttrukne PDF-filen | |
If file exists | Ikke tilgjengelig | Skriv over, Ikke skriv over, Legg til sekvensiell suffiks | Legg til sekvensielt suffiks | Angir hva du må gjøre hvis PDF-utdatafilen allerede finnes |
Variabler produsert
Argument | Type | Bekrivelse |
---|---|---|
ExtractedPDF | Fil | Den nye PDF-filen |
Unntak
Unntak | Beskrivelse |
---|---|
Ugyldig passord | Angitt passord er ugyldig |
PDF-filen finnes ikke | Filen finnes ikke i angitt bane |
Side utenfor område | Angir at én eller flere sider er utenfor området for PDF-filen |
Ugyldig sidevalg | Angir at de angitte sidene er ugyldige for PDF-filen |
Kan ikke trekke ut ny PDF-fil | Angir at det oppstod en feil under forsøk på å trekke ut ny PDF-fil |
Slå sammen PDF-filer
Slår sammen flere PDF-filer til en ny.
Du kan bruke handlingen Slå sammen PDF-filer til å ta to eller flere PDF-filer og flette dem i én enkelt fil. Filene som skal slås sammen, kan angis i form av en liste eller i doble anførselstegn (") og skilt med et skilletegn. Du kan også angi passord for PDF-filene hvis de er passordbeskyttet.
Inndataparametere
Argument | Valgfritt | Godtar | Standardverdi | Bekrivelse |
---|---|---|---|---|
PDF files | Nei | Liste over filer | Filene som skal slås sammen. Sett flere filer i anførselstegn ("), og skill dem med et skilletegn, eller bruk en liste over filer | |
Merged PDF path | Nei | Fil | Lagringsbanen til den sammenslåtte PDF-filen | |
If file exists | Ikke tilgjengelig | Skriv over, Ikke skriv over, Legg til sekvensiell suffiks | Legg til sekvensielt suffiks | Angir hva du må gjøre hvis målfilen finnes allerede |
Passord | Ja | Direkte krypterte inndata eller tekstverdi | De skilletegndelte passordene. Rekkefølgen må være den samme som rekkefølgen på PDF-inndatafilene. La dette stå tomt hvis PDF-filene ikke er passordbeskyttet | |
Skilletegn | Nei | Tekstverdi | , | Et egendefinert passordskilletegn. Dette skilletegnet kan ikke være en del av noen av passordene |
Variabler produsert
Argument | Type | Bekrivelse |
---|---|---|
MergedPDF | Fil | Den sammenslåtte PDF-filen |
Unntak
Unntak | Beskrivelse |
---|---|
PDF-filen finnes ikke | Filen finnes ikke i angitt bane |
Ugyldig passord | Angitt passord er ugyldig |
Kan ikke slå sammen PDF-filer | Angir at det oppstod en feil mens filene ble slått sammen |