Delen via


PDF-acties

Met PDF-acties kunt u afbeeldingen, tekst en tabellen uit PDF-bestanden extraheren en pagina's rangschikken om nieuwe documenten te maken.

Als u tekst uit een PDF-bestand wilt extraheren, gebruikt u de actie Tekst extraheren uit PDF. In het volgende voorbeeld wordt tekst geëxtraheerd uit een specifiek paginabereik van een bestand dat met een wachtwoord is beveiligd. Het wachtwoord wordt gespecificeerd in de Geavanceerde instellingen.

Als u teksten wilt extraheren die in tabelvorm zijn gerangschikt, schakelt u Optimaliseren voor gestructureerde gegevens in om de indeling en nauwkeurigheid van de resultaten te verbeteren.

Schermopname van de actie Tekst extraheren uit PDF.

U kunt tabellen uit een PDF-bestand extraheren door de actie Tabellen extraheren uit PDF te implementeren, het bestand te selecteren en de pagina's op te geven waaruit u wilt extraheren.

De actie produceert de variabele ExtractedPDFTables die een lijst met PDF-tabelinformatie bevat. Ga naar Geavanceerde gegevenstypen voor informatie over dit type lijst.

Notitie

  • De actie Tabellen extraheren uit PDF maakt geen gebruik van optische tekenherkenning (OCR), dus u kunt geen niet-kopieerbare tekst uit gescande PDF's extraheren.
  • De bibliotheek achter de actie extraheert af en toe extra PDF-gegevens die geen tabellen zijn. Deze functionaliteit minimaliseert het risico van het per ongeluk weglaten van een echte tabel.

Schermopname van de actie Tabellen extraheren uit PDF.

Naast het extraheren van informatie uit PDF-bestanden, kunt u een nieuw PDF-document maken van een bestaand bestand met behulp van de actie Pagina's uit een PDF-bestand extraheren naar een nieuw PDF-bestand.

In het volgende voorbeeld worden een combinatie van specifieke pagina's en een paginabereik geselecteerd.

Schermopname van de actie Pagina's uit een PDF-bestand extraheren naar een nieuw PDF-bestand.

Tekst extraheren uit PDF

U kunt tekst uit een PDF-bestand extraheren door de actie "Tekst extraheren uit PDF" te gebruiken. In de actie-eigenschappen kunt u het PDF-bronbestand definiëren en de pagina's waaruit tekst moet worden geëxtraheerd. Onder de geavanceerde actie-eigenschappen kunt u een wachtwoord definiëren voor het geval het PDF-bestand beveiligd is en kunt u aangeven of de engine wel of niet moet optimaliseren voor gestructureerde gegevens.

Invoerparameters

Argument Optioneel Accepteert Standaardwaarde Omschrijving
PDF file Nee Bestand Het PDF-bestand waaruit tekst wordt geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat
Pagina's om te extraheren N.v.t. Alles, Eén, Bereik Alles Geeft aan hoeveel pagina's worden geëxtraheerd: alle pagina's, één pagina of een paginabereik
Single page number Nee Numerieke waarde Het nummer van de enkele pagina waarvan tekst moet worden geëxtraheerd
From page number Nee Numerieke waarde Het eerste paginanummer van het paginabereik waaruit tekst moet worden geëxtraheerd
To page number Nee Numerieke waarde Het laatste paginanummer van het paginabereik waaruit tekst moet worden geëxtraheerd
Wachtwoord Ja Directe versleutelde invoer of tekstwaarde Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd
Optimaliseren voor gestructureerde gegevens N.v.t. Booleaanse waarde False Geef op of een opgemaakte indeling in het document moet worden gedetecteerd en of de tekst van het document moet worden geëxtraheerd

Variabelen gemaakt

Argument Type Omschrijving
ExtractedPDFText Tekstwaarde De geëxtraheerde tekst

Uitzonderingen

Uitzondering Beschrijving
PDF-bestand bestaat niet Bestand bestaat niet in het opgegeven pad
Ongeldig wachtwoord Het opgegeven wachtwoord is ongeldig
Kan geen tekst extraheren Fout bij de poging om tekst te extraheren

Tabellen extraheren uit PDF

U kunt tabellen uit een PDF-bestand extraheren met behulp van de actie Tabellen uit PDF extraheren. In de actie-eigenschappen kunt u het PDF-bronbestand definiëren en het bereik pagina's waaruit de tabellen moeten worden geëxtraheerd. Onder de geavanceerde actie-eigenschappen kunt u een wachtwoord definiëren voor het geval dat het PDF-bestand beveiligd is, bepalen of de tabel kopteksten heeft of niet, en ten slotte of tabellen die paginamarges overschrijden, moeten worden samengevoegd of niet.

Invoerparameters

Argument Optioneel Accepteert Standaardwaarde Omschrijving
PDF-bestand Nee Bestand Het PDF-bestand waaruit tabellen moeten worden geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat
Pagina's om te extraheren N.v.t. Alles, Eén, Bereik Alles Geeft aan uit hoeveel pagina's tabellen moeten worden geëxtraheerd: alle pagina's, één pagina of een paginabereik
Eén paginanummer Nee Numerieke waarde Het nummer van één pagina waaruit de tabellen worden geëxtraheerd
Vanaf paginanummer Nee Numerieke waarde Het eerste paginanummer van het paginabereik waaruit tabellen moeten worden geëxtraheerd
Tot paginanummer Nee Numerieke waarde Het laatste paginanummer van het paginabereik waaruit tabellen moeten worden geëxtraheerd
Wachtwoord Ja Directe versleutelde invoer of tekstwaarde Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd
Tabellen samenvoegen die paginamarges kruisen N.v.t. Booleaanse waarde Waar Geeft aan of tabellen moeten worden samengevoegd die paginamarges in het opgegeven paginabereik kruisen
De eerste regel bevat kolomnamen N.v.t. Booleaanse waarde Waar Hiermee wordt opgegeven of de eerste regel van de tabel kolomnamen bevat

Variabelen gemaakt

Argument Type Omschrijving
ExtractedPDFTables Lijst met PDF-tabelinformatie De uitgepakte tabellen met hun gegevens als lijst

Uitzonderingen

Uitzondering Beschrijving
PDF-bestand bestaat niet Bestand bestaat niet in het opgegeven pad
Ongeldig wachtwoord Het opgegeven wachtwoord is ongeldig
Kan tabellen niet extraheren Fout bij de poging om tabellen te extraheren

Afbeeldingen extraheren uit PDF

Als u afbeeldingen uit een PDF-bestand wilt extraheren, gebruikt u de actie Afbeeldingen extraheren uit PDF. In de actieparameters kunt u het PDF-bestand en de pagina's waaruit u afbeeldingen wilt extraheren, de naamgevingsconventie van de geëxtraheerde afbeeldingen en de doellocatie van de opgeslagen afbeeldingen definiëren. U kunt ook een wachtwoord definiëren als het PDF-bestand is beveiligd onder de geavanceerde instellingen.

Invoerparameters

Argument Optioneel Accepteert Standaardwaarde Omschrijving
PDF file Nee Bestand Het PDF-bestand waaruit afbeeldingen worden geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat
Wachtwoord Ja Directe versleutelde invoer of tekstwaarde Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd
Page(s) to extract N.v.t. Alles, Eén, Bereik Alles Geeft aan hoeveel pagina's worden geëxtraheerd: alle pagina's, één pagina of een paginabereik
Single page number Nee Numerieke waarde Het nummer van één pagina waaruit de afbeeldingen worden geëxtraheerd
From page number Nee Numerieke waarde Het eerste paginanummer van het paginabereik waaruit afbeeldingen moeten worden geëxtraheerd
To page number Nee Numerieke waarde Het laatste paginanummer van het paginabereik waaruit afbeeldingen moeten worden geëxtraheerd
Image(s) name Nee Tekstwaarde Waarmee de naam van de afbeeldingen begint. Voorbeeld van naam van geëxtraheerde afbeeldingen: GegevenNaam_1, GegevenNaam_2
Save image(s) to Nee Map De map waarin de geëxtraheerde afbeeldingen moeten worden opgeslagen als PNG-bestanden

Variabelen gemaakt

Deze actie levert geen variabelen op.

Uitzonderingen

Uitzondering Omschrijving
Ongeldig wachtwoord Het opgegeven wachtwoord is ongeldig
Kan afbeeldingen niet extraheren Geeft aan dat er een fout is opgetreden bij het extraheren van afbeeldingen uit de opgegeven pagina's van de PDF
Map bestaat niet Geeft aan dat de map niet bestaat
PDF-bestand bestaat niet Bestand bestaat niet in het opgegeven pad

Pagina's uit een PDF-bestand extraheren naar een nieuw PDF-bestand

U kunt een nieuw PDF-bestand maken door pagina´s van een bestaand PDF-bestand te extraheren met behulp van de actie Pagina's uit een PDF-bestand extraheren naar een nieuw PDF-bestand. In de actieparameters kunt u het PDF-bestand definiëren waaruit de pagina's moeten worden geëxtraheerd, de pagina's die moeten worden geëxtraheerd, de locatie van het nieuwe PDF-bestand en wat er moet gebeuren als er al een bestand met dezelfde naam en extensie bestaat. Ten slotte kunt u onder de geavanceerde eigenschappen een wachtwoord definiëren voor het geval de bron-PDF beveiligd is.

Invoerparameters

Argument Optioneel Accepteert Standaardwaarde Omschrijving
PDF file Nee Bestand Het PDF-bestand waaruit pagina's worden geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat
Wachtwoord Ja Directe versleutelde invoer of tekstwaarde Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd
Page selection Nee Tekstwaarde De indexnummers van de te behouden pagina's (bijvoorbeeld 1,3,17-24)
Extracted PDF path Nee Bestand Het pad waarin het geëxtraheerde PDF-bestand wordt opgeslagen
If file exists N.v.t. Overschrijven, Niet overschrijven, Volgend achtervoegsel toevoegen Volgend achtervoegsel toevoegen Geeft aan wat moet worden gedaan als het PDF-uitvoerbestand al bestaat

Variabelen gemaakt

Argument Type Omschrijving
ExtractedPDF Bestand Het nieuwe PDF-bestand

Uitzonderingen

Uitzondering Beschrijving
Ongeldig wachtwoord Het opgegeven wachtwoord is ongeldig
PDF-bestand bestaat niet Bestand bestaat niet in het opgegeven pad
Pagina buiten bereik Geeft aan dat een of meer pagina's buiten het PDF-bestand vallen
Ongeldige paginaselectie Geeft aan dat de opgegeven pagina's niet geldig zijn voor het PDF-bestand
Kan nieuwe PDF niet extraheren Geeft aan dat er een fout is opgetreden bij het extraheren van de nieuwe PDF

PDF-bestanden samenvoegen

Hiermee worden meerdere PDF-bestanden samengevoegd tot één nieuw bestand.

U kunt de actie PDF-bestanden samenvoegen gebruiken om twee of meer PDF-bestanden samen te voegen tot één bestand. De samen te voegen bestanden kunnen worden verstrekt in de vorm van een lijst, of tussen dubbele aanhalingstekens en gescheiden door een scheidingsteken. U kunt ook wachtwoorden opgeven voor de PDF-bestanden, voor het geval deze met een wachtwoord zijn beveiligd.

Invoerparameters

Argument Optioneel Accepteert Standaardwaarde Omschrijving
PDF files Nee Lijst met FTP-bestanden De bestanden die moeten worden samengevoegd. Plaats meerdere bestanden tussen dubbele aanhalingstekens (") en scheid ze van elkaar met een scheidingsteken of gebruik een lijst met bestanden
Merged PDF path Nee Bestand Het pad waarin het samengevoegde PDF-bestand wordt opgeslagen
If file exists N.v.t. Overschrijven, Niet overschrijven, Volgend achtervoegsel toevoegen Volgend achtervoegsel toevoegen Hiermee wordt opgegeven wat moet worden gedaan als het doelbestand al bestaat
Wachtwoords Ja Directe versleutelde invoer of tekstwaarde De gescheiden wachtwoorden. De volgorde moet gelijk zijn aan de volgorde van de ingevoerde PDF-bestanden. Laat dit leeg als de PDF-bestanden niet met een wachtwoord zijn beveiligd
Scheidingsteken Nee Tekstwaarde , Een scheidingsteken voor aangepaste wachtwoorden. Dit scheidingsteken mag geen deel uitmaken van een van de wachtwoorden

Variabelen gemaakt

Argument Type Omschrijving
MergedPDF Bestand Het samengevoegde PDF-bestand

Uitzonderingen

Uitzondering Beschrijving
PDF-bestand bestaat niet Bestand bestaat niet in het opgegeven pad
Ongeldig wachtwoord Het opgegeven wachtwoord is ongeldig
Samenvoegen van PDF-bestanden mislukt Geeft aan dat er een fout is opgetreden bij het samenvoegen van de bestanden