PDF-acties
Met PDF-acties kunt u afbeeldingen, tekst en tabellen uit PDF-bestanden extraheren en pagina's rangschikken om nieuwe documenten te maken.
Als u tekst uit een PDF-bestand wilt extraheren, gebruikt u de actie Tekst extraheren uit PDF. In het volgende voorbeeld wordt tekst geëxtraheerd uit een specifiek paginabereik van een bestand dat met een wachtwoord is beveiligd. Het wachtwoord wordt gespecificeerd in de Geavanceerde instellingen.
Als u teksten wilt extraheren die in tabelvorm zijn gerangschikt, schakelt u Optimaliseren voor gestructureerde gegevens in om de indeling en nauwkeurigheid van de resultaten te verbeteren.
U kunt tabellen uit een PDF-bestand extraheren door de actie Tabellen extraheren uit PDF te implementeren, het bestand te selecteren en de pagina's op te geven waaruit u wilt extraheren.
De actie produceert de variabele ExtractedPDFTables die een lijst met PDF-tabelinformatie bevat. Ga naar Geavanceerde gegevenstypen voor informatie over dit type lijst.
Notitie
- De actie Tabellen extraheren uit PDF maakt geen gebruik van optische tekenherkenning (OCR), dus u kunt geen niet-kopieerbare tekst uit gescande PDF's extraheren.
- De bibliotheek achter de actie extraheert af en toe extra PDF-gegevens die geen tabellen zijn. Deze functionaliteit minimaliseert het risico van het per ongeluk weglaten van een echte tabel.
Naast het extraheren van informatie uit PDF-bestanden, kunt u een nieuw PDF-document maken van een bestaand bestand met behulp van de actie Pagina's uit een PDF-bestand extraheren naar een nieuw PDF-bestand.
In het volgende voorbeeld worden een combinatie van specifieke pagina's en een paginabereik geselecteerd.
Tekst extraheren uit PDF
U kunt tekst uit een PDF-bestand extraheren door de actie "Tekst extraheren uit PDF" te gebruiken. In de actie-eigenschappen kunt u het PDF-bronbestand definiëren en de pagina's waaruit tekst moet worden geëxtraheerd. Onder de geavanceerde actie-eigenschappen kunt u een wachtwoord definiëren voor het geval het PDF-bestand beveiligd is en kunt u aangeven of de engine wel of niet moet optimaliseren voor gestructureerde gegevens.
Invoerparameters
Argument | Optioneel | Accepteert | Standaardwaarde | Omschrijving |
---|---|---|---|---|
PDF file | Nee | Bestand | Het PDF-bestand waaruit tekst wordt geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat | |
Pagina's om te extraheren | N.v.t. | Alles, Eén, Bereik | Alles | Geeft aan hoeveel pagina's worden geëxtraheerd: alle pagina's, één pagina of een paginabereik |
Single page number | Nee | Numerieke waarde | Het nummer van de enkele pagina waarvan tekst moet worden geëxtraheerd | |
From page number | Nee | Numerieke waarde | Het eerste paginanummer van het paginabereik waaruit tekst moet worden geëxtraheerd | |
To page number | Nee | Numerieke waarde | Het laatste paginanummer van het paginabereik waaruit tekst moet worden geëxtraheerd | |
Wachtwoord | Ja | Directe versleutelde invoer of tekstwaarde | Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd | |
Optimaliseren voor gestructureerde gegevens | N.v.t. | Booleaanse waarde | False | Geef op of een opgemaakte indeling in het document moet worden gedetecteerd en of de tekst van het document moet worden geëxtraheerd |
Variabelen gemaakt
Argument | Type | Omschrijving |
---|---|---|
ExtractedPDFText | Tekstwaarde | De geëxtraheerde tekst |
Uitzonderingen
Uitzondering | Beschrijving |
---|---|
PDF-bestand bestaat niet | Bestand bestaat niet in het opgegeven pad |
Ongeldig wachtwoord | Het opgegeven wachtwoord is ongeldig |
Kan geen tekst extraheren | Fout bij de poging om tekst te extraheren |
Tabellen extraheren uit PDF
U kunt tabellen uit een PDF-bestand extraheren met behulp van de actie Tabellen uit PDF extraheren. In de actie-eigenschappen kunt u het PDF-bronbestand definiëren en het bereik pagina's waaruit de tabellen moeten worden geëxtraheerd. Onder de geavanceerde actie-eigenschappen kunt u een wachtwoord definiëren voor het geval dat het PDF-bestand beveiligd is, bepalen of de tabel kopteksten heeft of niet, en ten slotte of tabellen die paginamarges overschrijden, moeten worden samengevoegd of niet.
Invoerparameters
Argument | Optioneel | Accepteert | Standaardwaarde | Omschrijving |
---|---|---|---|---|
PDF-bestand | Nee | Bestand | Het PDF-bestand waaruit tabellen moeten worden geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat | |
Pagina's om te extraheren | N.v.t. | Alles, Eén, Bereik | Alles | Geeft aan uit hoeveel pagina's tabellen moeten worden geëxtraheerd: alle pagina's, één pagina of een paginabereik |
Eén paginanummer | Nee | Numerieke waarde | Het nummer van één pagina waaruit de tabellen worden geëxtraheerd | |
Vanaf paginanummer | Nee | Numerieke waarde | Het eerste paginanummer van het paginabereik waaruit tabellen moeten worden geëxtraheerd | |
Tot paginanummer | Nee | Numerieke waarde | Het laatste paginanummer van het paginabereik waaruit tabellen moeten worden geëxtraheerd | |
Wachtwoord | Ja | Directe versleutelde invoer of tekstwaarde | Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd | |
Tabellen samenvoegen die paginamarges kruisen | N.v.t. | Booleaanse waarde | Waar | Geeft aan of tabellen moeten worden samengevoegd die paginamarges in het opgegeven paginabereik kruisen |
De eerste regel bevat kolomnamen | N.v.t. | Booleaanse waarde | Waar | Hiermee wordt opgegeven of de eerste regel van de tabel kolomnamen bevat |
Variabelen gemaakt
Argument | Type | Omschrijving |
---|---|---|
ExtractedPDFTables | Lijst met PDF-tabelinformatie | De uitgepakte tabellen met hun gegevens als lijst |
Uitzonderingen
Uitzondering | Beschrijving |
---|---|
PDF-bestand bestaat niet | Bestand bestaat niet in het opgegeven pad |
Ongeldig wachtwoord | Het opgegeven wachtwoord is ongeldig |
Kan tabellen niet extraheren | Fout bij de poging om tabellen te extraheren |
Afbeeldingen extraheren uit PDF
Als u afbeeldingen uit een PDF-bestand wilt extraheren, gebruikt u de actie Afbeeldingen extraheren uit PDF. In de actieparameters kunt u het PDF-bestand en de pagina's waaruit u afbeeldingen wilt extraheren, de naamgevingsconventie van de geëxtraheerde afbeeldingen en de doellocatie van de opgeslagen afbeeldingen definiëren. U kunt ook een wachtwoord definiëren als het PDF-bestand is beveiligd onder de geavanceerde instellingen.
Invoerparameters
Argument | Optioneel | Accepteert | Standaardwaarde | Omschrijving |
---|---|---|---|---|
PDF file | Nee | Bestand | Het PDF-bestand waaruit afbeeldingen worden geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat | |
Wachtwoord | Ja | Directe versleutelde invoer of tekstwaarde | Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd | |
Page(s) to extract | N.v.t. | Alles, Eén, Bereik | Alles | Geeft aan hoeveel pagina's worden geëxtraheerd: alle pagina's, één pagina of een paginabereik |
Single page number | Nee | Numerieke waarde | Het nummer van één pagina waaruit de afbeeldingen worden geëxtraheerd | |
From page number | Nee | Numerieke waarde | Het eerste paginanummer van het paginabereik waaruit afbeeldingen moeten worden geëxtraheerd | |
To page number | Nee | Numerieke waarde | Het laatste paginanummer van het paginabereik waaruit afbeeldingen moeten worden geëxtraheerd | |
Image(s) name | Nee | Tekstwaarde | Waarmee de naam van de afbeeldingen begint. Voorbeeld van naam van geëxtraheerde afbeeldingen: GegevenNaam_1, GegevenNaam_2 | |
Save image(s) to | Nee | Map | De map waarin de geëxtraheerde afbeeldingen moeten worden opgeslagen als PNG-bestanden |
Variabelen gemaakt
Deze actie levert geen variabelen op.
Uitzonderingen
Uitzondering | Omschrijving |
---|---|
Ongeldig wachtwoord | Het opgegeven wachtwoord is ongeldig |
Kan afbeeldingen niet extraheren | Geeft aan dat er een fout is opgetreden bij het extraheren van afbeeldingen uit de opgegeven pagina's van de PDF |
Map bestaat niet | Geeft aan dat de map niet bestaat |
PDF-bestand bestaat niet | Bestand bestaat niet in het opgegeven pad |
Pagina's uit een PDF-bestand extraheren naar een nieuw PDF-bestand
U kunt een nieuw PDF-bestand maken door pagina´s van een bestaand PDF-bestand te extraheren met behulp van de actie Pagina's uit een PDF-bestand extraheren naar een nieuw PDF-bestand. In de actieparameters kunt u het PDF-bestand definiëren waaruit de pagina's moeten worden geëxtraheerd, de pagina's die moeten worden geëxtraheerd, de locatie van het nieuwe PDF-bestand en wat er moet gebeuren als er al een bestand met dezelfde naam en extensie bestaat. Ten slotte kunt u onder de geavanceerde eigenschappen een wachtwoord definiëren voor het geval de bron-PDF beveiligd is.
Invoerparameters
Argument | Optioneel | Accepteert | Standaardwaarde | Omschrijving |
---|---|---|---|---|
PDF file | Nee | Bestand | Het PDF-bestand waaruit pagina's worden geëxtraheerd. Voer een bestandspad in of een variabele die een bestand of een tekstpad bevat | |
Wachtwoord | Ja | Directe versleutelde invoer of tekstwaarde | Het wachtwoord van het PDF-bestand. Laat dit leeg als de PDF niet met een wachtwoord is beveiligd | |
Page selection | Nee | Tekstwaarde | De indexnummers van de te behouden pagina's (bijvoorbeeld 1,3,17-24) | |
Extracted PDF path | Nee | Bestand | Het pad waarin het geëxtraheerde PDF-bestand wordt opgeslagen | |
If file exists | N.v.t. | Overschrijven, Niet overschrijven, Volgend achtervoegsel toevoegen | Volgend achtervoegsel toevoegen | Geeft aan wat moet worden gedaan als het PDF-uitvoerbestand al bestaat |
Variabelen gemaakt
Argument | Type | Omschrijving |
---|---|---|
ExtractedPDF | Bestand | Het nieuwe PDF-bestand |
Uitzonderingen
Uitzondering | Beschrijving |
---|---|
Ongeldig wachtwoord | Het opgegeven wachtwoord is ongeldig |
PDF-bestand bestaat niet | Bestand bestaat niet in het opgegeven pad |
Pagina buiten bereik | Geeft aan dat een of meer pagina's buiten het PDF-bestand vallen |
Ongeldige paginaselectie | Geeft aan dat de opgegeven pagina's niet geldig zijn voor het PDF-bestand |
Kan nieuwe PDF niet extraheren | Geeft aan dat er een fout is opgetreden bij het extraheren van de nieuwe PDF |
PDF-bestanden samenvoegen
Hiermee worden meerdere PDF-bestanden samengevoegd tot één nieuw bestand.
U kunt de actie PDF-bestanden samenvoegen gebruiken om twee of meer PDF-bestanden samen te voegen tot één bestand. De samen te voegen bestanden kunnen worden verstrekt in de vorm van een lijst, of tussen dubbele aanhalingstekens en gescheiden door een scheidingsteken. U kunt ook wachtwoorden opgeven voor de PDF-bestanden, voor het geval deze met een wachtwoord zijn beveiligd.
Invoerparameters
Argument | Optioneel | Accepteert | Standaardwaarde | Omschrijving |
---|---|---|---|---|
PDF files | Nee | Lijst met FTP-bestanden | De bestanden die moeten worden samengevoegd. Plaats meerdere bestanden tussen dubbele aanhalingstekens (") en scheid ze van elkaar met een scheidingsteken of gebruik een lijst met bestanden | |
Merged PDF path | Nee | Bestand | Het pad waarin het samengevoegde PDF-bestand wordt opgeslagen | |
If file exists | N.v.t. | Overschrijven, Niet overschrijven, Volgend achtervoegsel toevoegen | Volgend achtervoegsel toevoegen | Hiermee wordt opgegeven wat moet worden gedaan als het doelbestand al bestaat |
Wachtwoords | Ja | Directe versleutelde invoer of tekstwaarde | De gescheiden wachtwoorden. De volgorde moet gelijk zijn aan de volgorde van de ingevoerde PDF-bestanden. Laat dit leeg als de PDF-bestanden niet met een wachtwoord zijn beveiligd | |
Scheidingsteken | Nee | Tekstwaarde | , | Een scheidingsteken voor aangepaste wachtwoorden. Dit scheidingsteken mag geen deel uitmaken van een van de wachtwoorden |
Variabelen gemaakt
Argument | Type | Omschrijving |
---|---|---|
MergedPDF | Bestand | Het samengevoegde PDF-bestand |
Uitzonderingen
Uitzondering | Beschrijving |
---|---|
PDF-bestand bestaat niet | Bestand bestaat niet in het opgegeven pad |
Ongeldig wachtwoord | Het opgegeven wachtwoord is ongeldig |
Samenvoegen van PDF-bestanden mislukt | Geeft aan dat er een fout is opgetreden bij het samenvoegen van de bestanden |