PDF-åtgärder
Med hjälp av PDF-åtgärder kan du extrahera bilder, text och tabeller från PDF-filer och ordna sidor för att skapa nya dokument.
Om du vill extrahera text från en PDF-fil använder du åtgärden Extrahera text från PDF. Följande exempel extraherar text från en viss mängd sidor av en lösenordsskyddad fil. Lösenordet anges i avancerade inställningar.
Om du vill extrahera text som är arrangerade i tabellformat aktiverar du Optimera för strukturerade data för att förbättra resultatens format och precision.
Extrahera tabeller från en PDF-fil genom att distribuera åtgärden Extrahera tabeller från PDF markera filen och ange vilka sidor som ska extraheras från.
Åtgärden ger en variabel med namnet ExtractedPDFTables som innehåller en lista med information om PDF-tabellen. Om du vill söka efter information om den här typen av lista går du till Avancerade datatyper.
Kommentar
- Åtgärden extraheringstabeller från PDF använder inte Optisk teckenigenkänning (OCR) så du kan inte extrahera icke-kopierbar text från skannade PDF.
- Biblioteket bakom åtgärden extraherar ibland ytterligare PDF-data som inte är tabeller. Med den här funktionen minimeras risken för att oavsiktligt ta bort en riktig tabell.
Förutom att extrahera information från PDF-filer kan du skapa ett nytt PDF-dokument från en befintlig fil med hjälp av extrahera PDF-filsidor till en ny PDF-fil åtgärd.
Följande exempel väljer en kombination av specifika sidor och ett antal sidor.
Extrahera text från PDF
Du kan extrahera text från en PDF-fil genom att använda åtgärden Extrahera text från PDF. I åtgärdsegenskaperna kan du definiera PDF-källfilen och de sidor som texten ska extraheras från. Under de avancerade åtgärdsegenskaperna kan du definiera ett lösenord om PDF-filen är skyddad och om motorn ska optimeras för strukturerade data eller inte.
Indataparametrar
Argument | Valfri | Accepterar | Standardvärde | Beskrivning |
---|---|---|---|---|
PDF file | Nej | Arkiv | PDF-filen att extrahera text från. Ange en filsökväg eller en variabel som innehåller en fil eller en textsökväg | |
Page(s) to extract | Inte tillgänglig | Alla, Enkel, Intervall | Alla | Anger hur många sidor som ska extraheras: alla sidor, en enda sida eller ett sidintervall |
Single page number | Nej | Numeriskt värde | Numret på en enda sida att extrahera text från | |
From page number | Nej | Numeriskt värde | Det första sidnumret från det sidintervall som du vill extrahera text från | |
To page number | Nej | Numeriskt värde | Det senaste sidnumret från det sidintervall från vilket text ska extraheras | |
Lösenord | Ja | Direkt krypterad indata eller textvärde | PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad | |
Optimera för strukturerade data | Inte tillgänglig | Booleskt värde | Falsk | Ange om formaterad layout ska identifieras i dokumentet och extrahera text därefter |
Producerade variabler
Argument | Typ | Beskrivning |
---|---|---|
ExtractedPDFText | Textvärde | Den extraherade texten |
Undantag
Undantag | Beskrivning |
---|---|
PDF-filen finns inte | Filen finns inte på den givna sökvägen |
Ogiltigt lösenord | Det givna lösenordet är ogiltigt |
Det gick inte att extrahera text | Fel vid försök att extrahera text |
Extrahera tabeller från PDF
Du kan extrahera tabeller som finns i en PDF-fil med hjälp av PDF-åtgärden Extrahera tabeller från PDF. I åtgärdsegenskaperna kan du definiera PDF-filen och intervallet av sidor som tabellerna kommer att extraheras från. Under de avancerade åtgärdsegenskaperna kan du ange ett lösenord i fall att PDF-filen är skyddad, definiera om tabellen har rubriker eller inte, och slutligen om tabeller som korsar sidmarginalerna ska sammanfogas eller inte.
Indataparametrar
Argument | Valfri | Accepterar | Standardvärde | Beskrivning |
---|---|---|---|---|
PDF file | Nej | Arkiv | PDF-filen att extrahera tabeller från. Ange en filsökväg eller en variabel som innehåller en fil eller en textsökväg | |
Page(s) to extract | Inte tillgänglig | Alla, Enkel, Intervall | Alla | Anger hur många sidor som tabeller ska extraheras från: alla sidor, en enskild sida eller ett sidintervall |
Single page number | Nej | Numeriskt värde | Numret på den enskilda sidan som tabeller ska extraheras från | |
From page number | Nej | Numeriskt värde | Det första sidnumret från det sidintervall som du vill extrahera tabeller från | |
To page number | Nej | Numeriskt värde | Det senaste sidnumret från det sidintervall från vilket tabeller ska extraheras | |
Lösenord | Ja | Direkt krypterad indata eller textvärde | PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad | |
Koppla tabeller som korsar sidmarginaler | Inte tillgänglig | Booleskt värde | Sann | Anger om tabeller som korsar sidmarginaler ska slås samman inom det angivna sidintervallet |
First line contains column names | Inte tillgänglig | Booleskt värde | Sann | Anger om den första raden i tabellen innehåller kolumnnamn |
Producerade variabler
Argument | Typ | Beskrivning |
---|---|---|
ExtractedPDFTables | Lista över PDF-tabellinformation | Extraherade tabeller med information som lista |
Undantag
Undantag | Beskrivning |
---|---|
PDF-filen finns inte | Filen finns inte på den givna sökvägen |
Ogiltigt lösenord | Det givna lösenordet är ogiltigt |
Det gick inte att extrahera tabeller | Ett fel uppstod när tabeller skulle extraheras |
Extrahera bilder från PDF
För att extrahera bilder från en PDF-fil kan du använda åtgärden Extrahera bilder från PDF. I åtgärdsparametrarna kan du definiera PDF-filen och sidorna för att extrahera bilder från, namnkonvention för de extraherade bilderna och målplatsen för de sparade bilderna. Du kan också definiera ett lösenord om PDF-filen är skyddad under de avancerade inställningarna.
Indataparametrar
Argument | Valfri | Accepterar | Standardvärde | Beskrivning |
---|---|---|---|---|
PDF file | Nej | Arkiv | PDF-filen att extrahera bilder från. Ange en sökväg, en variabel som innehåller en fil eller en sökväg för text | |
Lösenord | Ja | Direkt krypterad indata eller textvärde | PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad | |
Page(s) to extract | Inte tillgängligt | Alla, Enkel, Intervall | Alla | Anger hur många sidor som ska extraheras: alla sidor, en enda sida eller ett sidintervall |
Single page number | Nej | Numeriskt värde | Numret på sidan som bilder ska extraheras från | |
From page number | Nej | Numeriskt värde | Det första sidnumret från det sidintervall som du vill extrahera bilder från | |
To page number | Nej | Numeriskt värde | Det sista sidnumret från det sidintervall som du vill extrahera bilder från | |
Image(s) name | Nej | Textvärde | Hur namnet på bilderna startar. Extraherade bilder namnexempel: GivenName_1, GivenName_2 | |
Save image(s) to | Nej | Mapp | Mappen för att spara de extraherade bilderna som PNG-filer |
Producerade variabler
Denna åtgärd genererar inga variabler.
Undantag
Undantag | Beskrivning |
---|---|
Ogiltigt lösenord | Det givna lösenordet är ogiltigt |
Det gick inte att extrahera bilder | Anger att ett fel inträffade när bilder extraherades från de givna sidorna i PDF-filen |
Mappen finns inte | Indikerar att mappen inte finns |
PDF-filen finns inte | Filen finns inte på den givna sökvägen |
Extrahera PDF-filsidor till en ny PDF-fil
Du kan skapa en ny PDF-fil genom att extrahera sidor från en befintlig PDF-fil genom att använda åtgärden PDF-filsidor till en ny PDF-fil. I åtgärdsparametrarna kan du definiera PDF-filen att extrahera sidorna från, sidorna som ska extraheras, platsen för den nya PDF-filen och vad som händer om en fil med samma namn och filnamnstillägg redan finns. Slutligen kan du, under de avancerade egenskaperna, definiera ett lösenord om PDF-källfilen är skyddad.
Indataparametrar
Argument | Valfri | Accepterar | Standardvärde | Beskrivning |
---|---|---|---|---|
PDF file | Nej | Arkiv | PDF-filen att extrahera sidor från. Ange en sökväg, en variabel som innehåller en fil eller en sökväg för text | |
Lösenord | Ja | Direkt krypterad indata eller textvärde | PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad | |
Page selection | Nej | Textvärde | Indexnumren för de sidor som ska behållas (t.ex. 1, 3, 17–24) | |
Extracted PDF path | Nej | Arkiv | Sökvägen där den extraherade PDF-filen ska lagras | |
If file exists | Inte tillgängligt | Skriv över, skriv inte över, lägg till sekventiellt suffix | Lägg till ordningsföljdsuffix | Anger vad som ska ske om den resulterande PDF-filen redan finns |
Producerade variabler
Argument | Typ | Beskrivning |
---|---|---|
ExtractedPDF | Arkiv | Den nya PDF-filen |
Undantag
Undantag | Beskrivning |
---|---|
Ogiltigt lösenord | Det givna lösenordet är ogiltigt |
PDF-filen finns inte | Filen finns inte på den givna sökvägen |
Sidan är utanför intervallet | Anger att en eller flera sidor är utanför intervallet för PDF-filen |
Ogiltigt sidval | Anger att de givna sidorna inte är giltiga för PDF-filen |
Det gick inte att extrahera ny PDF-fil | Anger att ett fel inträffade vid försök att extrahera ny PDF-fil |
Slå samman PDF-filer
Slå samman flera PDF-filer till en ny.
Du kan använda åtgärden Koppla PDF-filer om du vill ta två eller flera PDF-filer och koppla dem till en enda fil. Filerna som ska slås samman kan tillhandahållas antingen i form av en lista eller inkluderade i dubbla citattecken och separerade med en avgränsare. Du kan också ange lösenord för PDF-filerna om de är lösenordsskyddade.
Indataparametrar
Argument | Valfri | Accepterar | Standardvärde | Beskrivning |
---|---|---|---|---|
PDF files | Nej | Lista över filer | Filerna att sammanslå. Omge flera filer med dubbla citattecken (") och skilj dem åt med en avgränsare eller använd en lista över filer | |
Merged PDF path | Nej | Arkiv | Sökvägen där den sammanslagna PDF-filen ska lagras | |
If file exists | Inte tillgängligt | Skriv över, skriv inte över, lägg till sekventiellt suffix | Lägg till ordningsföljdsuffix | Anger vad du ska göra om målfilen redan finns |
Lösenord | Ja | Direkt krypterad indata eller textvärde | Det avgränsade lösenordet. Ordningen ska vara densamma som ordningen bland indata-PDF-filer. Lämna det här tomt om PDF-filen inte är lösenordsskyddad | |
Delimiter | Nej | Textvärde | , | En anpassad lösenordsavgränsare. Den här avgränsaren ska inte vara en del av något av lösenorden |
Producerade variabler
Argument | Typ | Beskrivning |
---|---|---|
MergedPDF | Arkiv | Den sammanslagna PDF-filen |
Undantag
Undantag | Beskrivning |
---|---|
PDF-filen finns inte | Filen finns inte på den givna sökvägen |
Ogiltigt lösenord | Det givna lösenordet är ogiltigt |
Kunde inte sammanslå PDF-filer | Anger att ett fel inträffade vid sammanslagning av filerna |