Dela via


PDF-åtgärder

Med hjälp av PDF-åtgärder kan du extrahera bilder, text och tabeller från PDF-filer och ordna sidor för att skapa nya dokument.

Om du vill extrahera text från en PDF-fil använder du åtgärden Extrahera text från PDF. Följande exempel extraherar text från en viss mängd sidor av en lösenordsskyddad fil. Lösenordet anges i avancerade inställningar.

Om du vill extrahera text som är arrangerade i tabellformat aktiverar du Optimera för strukturerade data för att förbättra resultatens format och precision.

Skärmbild av alternativet Extrahera text från PDF-åtgärden.

Extrahera tabeller från en PDF-fil genom att distribuera åtgärden Extrahera tabeller från PDF markera filen och ange vilka sidor som ska extraheras från.

Åtgärden ger en variabel med namnet ExtractedPDFTables som innehåller en lista med information om PDF-tabellen. Om du vill söka efter information om den här typen av lista går du till Avancerade datatyper.

Kommentar

  • Åtgärden extraheringstabeller från PDF använder inte Optisk teckenigenkänning (OCR) så du kan inte extrahera icke-kopierbar text från skannade PDF.
  • Biblioteket bakom åtgärden extraherar ibland ytterligare PDF-data som inte är tabeller. Med den här funktionen minimeras risken för att oavsiktligt ta bort en riktig tabell.

Skärmbild av alternativet Extrahera tabeller från PDF-åtgärden.

Förutom att extrahera information från PDF-filer kan du skapa ett nytt PDF-dokument från en befintlig fil med hjälp av extrahera PDF-filsidor till en ny PDF-fil åtgärd.

Följande exempel väljer en kombination av specifika sidor och ett antal sidor.

Skärmbild på sidorna för extrahera PDF-filer till en ny PDF-filåtgärd.

Extrahera text från PDF

Du kan extrahera text från en PDF-fil genom att använda åtgärden Extrahera text från PDF. I åtgärdsegenskaperna kan du definiera PDF-källfilen och de sidor som texten ska extraheras från. Under de avancerade åtgärdsegenskaperna kan du definiera ett lösenord om PDF-filen är skyddad och om motorn ska optimeras för strukturerade data eller inte.

Indataparametrar

Argument Valfri Accepterar Standardvärde Beskrivning
PDF file Nej Arkiv PDF-filen att extrahera text från. Ange en filsökväg eller en variabel som innehåller en fil eller en textsökväg
Page(s) to extract Inte tillgänglig Alla, Enkel, Intervall Alla Anger hur många sidor som ska extraheras: alla sidor, en enda sida eller ett sidintervall
Single page number Nej Numeriskt värde Numret på en enda sida att extrahera text från
From page number Nej Numeriskt värde Det första sidnumret från det sidintervall som du vill extrahera text från
To page number Nej Numeriskt värde Det senaste sidnumret från det sidintervall från vilket text ska extraheras
Lösenord Ja Direkt krypterad indata eller textvärde PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad
Optimera för strukturerade data Inte tillgänglig Booleskt värde Falsk Ange om formaterad layout ska identifieras i dokumentet och extrahera text därefter

Producerade variabler

Argument Typ Beskrivning
ExtractedPDFText Textvärde Den extraherade texten

Undantag

Undantag Beskrivning
PDF-filen finns inte Filen finns inte på den givna sökvägen
Ogiltigt lösenord Det givna lösenordet är ogiltigt
Det gick inte att extrahera text Fel vid försök att extrahera text

Extrahera tabeller från PDF

Du kan extrahera tabeller som finns i en PDF-fil med hjälp av PDF-åtgärden Extrahera tabeller från PDF. I åtgärdsegenskaperna kan du definiera PDF-filen och intervallet av sidor som tabellerna kommer att extraheras från. Under de avancerade åtgärdsegenskaperna kan du ange ett lösenord i fall att PDF-filen är skyddad, definiera om tabellen har rubriker eller inte, och slutligen om tabeller som korsar sidmarginalerna ska sammanfogas eller inte.

Indataparametrar

Argument Valfri Accepterar Standardvärde Beskrivning
PDF file Nej Arkiv PDF-filen att extrahera tabeller från. Ange en filsökväg eller en variabel som innehåller en fil eller en textsökväg
Page(s) to extract Inte tillgänglig Alla, Enkel, Intervall Alla Anger hur många sidor som tabeller ska extraheras från: alla sidor, en enskild sida eller ett sidintervall
Single page number Nej Numeriskt värde Numret på den enskilda sidan som tabeller ska extraheras från
From page number Nej Numeriskt värde Det första sidnumret från det sidintervall som du vill extrahera tabeller från
To page number Nej Numeriskt värde Det senaste sidnumret från det sidintervall från vilket tabeller ska extraheras
Lösenord Ja Direkt krypterad indata eller textvärde PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad
Koppla tabeller som korsar sidmarginaler Inte tillgänglig Booleskt värde Sann Anger om tabeller som korsar sidmarginaler ska slås samman inom det angivna sidintervallet
First line contains column names Inte tillgänglig Booleskt värde Sann Anger om den första raden i tabellen innehåller kolumnnamn

Producerade variabler

Argument Typ Beskrivning
ExtractedPDFTables Lista över PDF-tabellinformation Extraherade tabeller med information som lista

Undantag

Undantag Beskrivning
PDF-filen finns inte Filen finns inte på den givna sökvägen
Ogiltigt lösenord Det givna lösenordet är ogiltigt
Det gick inte att extrahera tabeller Ett fel uppstod när tabeller skulle extraheras

Extrahera bilder från PDF

För att extrahera bilder från en PDF-fil kan du använda åtgärden Extrahera bilder från PDF. I åtgärdsparametrarna kan du definiera PDF-filen och sidorna för att extrahera bilder från, namnkonvention för de extraherade bilderna och målplatsen för de sparade bilderna. Du kan också definiera ett lösenord om PDF-filen är skyddad under de avancerade inställningarna.

Indataparametrar

Argument Valfri Accepterar Standardvärde Beskrivning
PDF file Nej Arkiv PDF-filen att extrahera bilder från. Ange en sökväg, en variabel som innehåller en fil eller en sökväg för text
Lösenord Ja Direkt krypterad indata eller textvärde PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad
Page(s) to extract Inte tillgängligt Alla, Enkel, Intervall Alla Anger hur många sidor som ska extraheras: alla sidor, en enda sida eller ett sidintervall
Single page number Nej Numeriskt värde Numret på sidan som bilder ska extraheras från
From page number Nej Numeriskt värde Det första sidnumret från det sidintervall som du vill extrahera bilder från
To page number Nej Numeriskt värde Det sista sidnumret från det sidintervall som du vill extrahera bilder från
Image(s) name Nej Textvärde Hur namnet på bilderna startar. Extraherade bilder namnexempel: GivenName_1, GivenName_2
Save image(s) to Nej Mapp Mappen för att spara de extraherade bilderna som PNG-filer

Producerade variabler

Denna åtgärd genererar inga variabler.

Undantag

Undantag Beskrivning
Ogiltigt lösenord Det givna lösenordet är ogiltigt
Det gick inte att extrahera bilder Anger att ett fel inträffade när bilder extraherades från de givna sidorna i PDF-filen
Mappen finns inte Indikerar att mappen inte finns
PDF-filen finns inte Filen finns inte på den givna sökvägen

Extrahera PDF-filsidor till en ny PDF-fil

Du kan skapa en ny PDF-fil genom att extrahera sidor från en befintlig PDF-fil genom att använda åtgärden PDF-filsidor till en ny PDF-fil. I åtgärdsparametrarna kan du definiera PDF-filen att extrahera sidorna från, sidorna som ska extraheras, platsen för den nya PDF-filen och vad som händer om en fil med samma namn och filnamnstillägg redan finns. Slutligen kan du, under de avancerade egenskaperna, definiera ett lösenord om PDF-källfilen är skyddad.

Indataparametrar

Argument Valfri Accepterar Standardvärde Beskrivning
PDF file Nej Arkiv PDF-filen att extrahera sidor från. Ange en sökväg, en variabel som innehåller en fil eller en sökväg för text
Lösenord Ja Direkt krypterad indata eller textvärde PDF-filens lösenord. Lämna dett tomt om PDF-filen inte är lösenordsskyddad
Page selection Nej Textvärde Indexnumren för de sidor som ska behållas (t.ex. 1, 3, 17–24)
Extracted PDF path Nej Arkiv Sökvägen där den extraherade PDF-filen ska lagras
If file exists Inte tillgängligt Skriv över, skriv inte över, lägg till sekventiellt suffix Lägg till ordningsföljdsuffix Anger vad som ska ske om den resulterande PDF-filen redan finns

Producerade variabler

Argument Typ Beskrivning
ExtractedPDF Arkiv Den nya PDF-filen

Undantag

Undantag Beskrivning
Ogiltigt lösenord Det givna lösenordet är ogiltigt
PDF-filen finns inte Filen finns inte på den givna sökvägen
Sidan är utanför intervallet Anger att en eller flera sidor är utanför intervallet för PDF-filen
Ogiltigt sidval Anger att de givna sidorna inte är giltiga för PDF-filen
Det gick inte att extrahera ny PDF-fil Anger att ett fel inträffade vid försök att extrahera ny PDF-fil

Slå samman PDF-filer

Slå samman flera PDF-filer till en ny.

Du kan använda åtgärden Koppla PDF-filer om du vill ta två eller flera PDF-filer och koppla dem till en enda fil. Filerna som ska slås samman kan tillhandahållas antingen i form av en lista eller inkluderade i dubbla citattecken och separerade med en avgränsare. Du kan också ange lösenord för PDF-filerna om de är lösenordsskyddade.

Indataparametrar

Argument Valfri Accepterar Standardvärde Beskrivning
PDF files Nej Lista över filer Filerna att sammanslå. Omge flera filer med dubbla citattecken (") och skilj dem åt med en avgränsare eller använd en lista över filer
Merged PDF path Nej Arkiv Sökvägen där den sammanslagna PDF-filen ska lagras
If file exists Inte tillgängligt Skriv över, skriv inte över, lägg till sekventiellt suffix Lägg till ordningsföljdsuffix Anger vad du ska göra om målfilen redan finns
Lösenord Ja Direkt krypterad indata eller textvärde Det avgränsade lösenordet. Ordningen ska vara densamma som ordningen bland indata-PDF-filer. Lämna det här tomt om PDF-filen inte är lösenordsskyddad
Delimiter Nej Textvärde , En anpassad lösenordsavgränsare. Den här avgränsaren ska inte vara en del av något av lösenorden

Producerade variabler

Argument Typ Beskrivning
MergedPDF Arkiv Den sammanslagna PDF-filen

Undantag

Undantag Beskrivning
PDF-filen finns inte Filen finns inte på den givna sökvägen
Ogiltigt lösenord Det givna lösenordet är ogiltigt
Kunde inte sammanslå PDF-filer Anger att ett fel inträffade vid sammanslagning av filerna