PDF-Aktionen
Mit PDF-Aktionen können Sie Bilder, Text und Tabellen aus PDF-Dateien extrahieren und Seiten anordnen, um neue Dokumente zu erstellen.
Um Text aus einer PDF-Datei zu extrahieren, verwenden Sie die Aktion Text aus PDF extrahieren. Das folgenden Beispiel extrahiert Text aus einem bestimmten Seitenbereich einer kennwortgeschützten Datei. Das Kennwort wird in den Erweiterten Einstellungen festgelegt.
Um tabellarisch angeordnete Texte zu extrahieren, aktivieren Sie die Option Für strukturierte Daten optimieren zur Verbesserung des Formats und der Genauigkeit der Ergebnisse.
Stellen Sie zum Extrahieren von Tabellen aus einer PDF-Datei die Aktion Tabellen aus PDF extrahieren bereit, wählen Sie die Datei aus und geben Sie die zu extrahierenden Seiten an.
Die Aktion erzeugt die Variable ExtractedPDFTables, die eine Liste mit PDF-Tabelleninformationen enthält. Informationen zu diesem Listentyp finden Sie unter Erweiterte Datentypen.
Notiz
- Die Aktion Tabellen aus PDF extrahieren verwendet keine optische Zeichenerkennung (OCR), sodass Sie keinen nicht kopierbaren Text aus gescannten PDFs extrahieren können.
- Die Bibliothek hinter der Aktion extrahiert gelegentlich zusätzliche PDF-Daten, die keine Tabellen sind. Diese Funktionalität minimiert das Risiko, versehentlich eine echte Tabelle auszulassen.
Neben dem Extrahieren von Informationen aus PDF-Dateien können Sie mithilfe der Aktion Seiten der PDF-Datei in eine neue PDF-Datei extrahieren ein neues PDF-Dokument aus einer vorhandenen Datei erstellen.
Das folgende Beispiel wählt eine Kombination aus bestimmten Seiten und einem Seitenbereich aus.
Text aus PDF extrahieren
Sie können Text mithilfe der Aktion „Text aus PDF extrahieren“ aus einer PDF-Datei extrahieren. In den Aktionseigenschaften können Sie die Quell-PDF und die Seiten festlegen, aus denen Text extrahiert werden soll. Unter den erweiterten Aktionseigenschaften können Sie ein Passwort festlegen, falls die PDF-Datei geschützt ist und ob das Modul für strukturierte Daten optimiert werden soll oder nicht.
Eingabeparameter
Argument | Optional | Akzeptiert | Standardwert | Beschreibung des Dataflows |
---|---|---|---|---|
PDF file | Nein | Datei | Die PDF-Datei, aus der Text extrahiert werden soll. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein | |
Zu extrahierende Seiten | NICHT ZUTREFFEND | Alle, Einzeln, Bereich | Alle | Gibt an, wie viele Seiten extrahiert werden sollen: alle Seiten, eine einzelne Seite oder ein Seitenbereich |
Single page number | Nein | Numerischer Wert | Die Zahl der einzelnen Seite, aus der Text extrahiert werden soll | |
From page number | Nein | Numerischer Wert | Die erste Seitenzahl aus dem Seitenbereich, aus dem Text extrahiert werden soll | |
To page number | Nein | Numerischer Wert | Die letzte Seitenzahl aus dem Seitenbereich, aus dem Text extrahiert werden soll | |
Kennwort | Ja | Direkte verschlüsselte Eingabe oder Textwert | Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist | |
Für strukturierte Daten optimieren | NICHT ZUTREFFEND | Boolescher Wert | False | Geben Sie an, ob formatiertes Layout im Dokument erkannt und Text extrahiert werden soll |
Erzeugte Variablen
Argument | Type | Beschreibung des Dataflows |
---|---|---|
ExtractedPDFText | Text Wert | Der extrahierte Text |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
PDF-Datei ist nicht vorhanden | Datei ist im angegebenen Pfad nicht vorhanden |
Ungültiges Kennwort | Das angegebene Kennwort ist ungültig |
Fehler beim Extrahieren von Text | Beim Extrahieren von Text ist ein Fehler aufgetreten |
Tabellen aus PDF extrahieren
Sie können Tabellen, die in einer PDF-Datei enthalten sind, mithilfe der Aktion Tabellen aus PDF extrahieren. In den Aktionseigenschaften können Sie die Quell-PDF und den Seitenumfang festlegen, aus denen die Tabellen extrahiert werden sollen. Unter den erweiterten Aktionseigenschaften können Sie ein Passwort festlegen, falls die PDF-Datei geschützt ist, festlegen, ob die Tabelle Kopfzeilen hat oder nicht und ob Tabellen, die sich über Seitenränder erstrecken, zusammengeführt werden sollen oder nicht.
Eingabeparameter
Argument | Optional | Akzeptiert | Standardwert | Beschreibung des Dataflows |
---|---|---|---|---|
PDF Datei | Nein | Datei | Die PDF-Datei, aus der Tabellen extrahiert werden sollen. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein | |
Zu extrahierende Seiten | NICHT ZUTREFFEND | Alle, Einzeln, Bereich | Alle | Gibt an, aus wie vielen Seiten Tabellen extrahiert werden sollen: alle Seiten, eine einzelne Seite oder ein Seitenbereich |
Nummer einzelne Seite | Nein | Numerischer Wert | Die Nummer der einzelnen Seite, aus der Tabellen extrahiert werden sollen | |
Ab Seitennummer | Nein | Numerischer Wert | Die erste Seitenzahl aus dem Seitenbereich, aus dem Tabellen extrahiert werden sollen | |
Bis Seitennummer | Nein | Numerischer Wert | Die letzte Seitenzahl aus dem Seitenbereich, aus dem Tabellen extrahiert werden sollen | |
Kennwort | Ja | Direkte verschlüsselte Eingabe oder Textwert | Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist | |
Tabellen, die über den Seitenbereich hinausgehen, zusammenführen | NICHT ZUTREFFEND | Boolescher Wert | true | Gibt an, ob Tabellen zusammengeführt werden sollen, die über die Seitenränder im angegebenen Seitenbereich hinausgehen |
Erste Zeile enthält Spaltennamen | NICHT ZUTREFFEND | Boolescher Wert | true | Gibt an, ob die erste Zeile der Tabelle Spaltennamen enthält |
Erzeugte Variablen
Argument | Type | Beschreibung des Dataflows |
---|---|---|
ExtractedPDFTables | Liste der PDF-Tabelleninformationen | Die extrahierten Tabellen mit ihren Informationen als Liste |
Ausnahmen
Ausnahme | Beschreibung des Dataflows |
---|---|
PDF-Datei ist nicht vorhanden | Datei ist im angegebenen Pfad nicht vorhanden |
Ungültiges Kennwort | Das angegebene Kennwort ist ungültig |
Fehler beim Extrahieren von Tabellen | Beim Extrahieren von Tabellen ist ein Fehler aufgetreten |
Bilder aus PDF extrahieren
Verwenden Sie zum Extrahieren von Bildern aus einer PDF-Datei die Aktion Bilder aus PDF extrahieren. In den Aktionsparametern können Sie die PDF-Datei und die Seiten, aus denen Bilder extrahiert werden sollen, die Namenskonvention der extrahierten Bilder und den Zielspeicherort der gespeicherten Bilder festlegen. Sie können auch ein Passwort festlegen, wenn die PDF-Datei in den erweiterten Einstellungen geschützt ist.
Eingabeparameter
Argument | Optional | Akzeptiert | Standardwert | Beschreibung des Dataflows |
---|---|---|---|---|
PDF file | Nein | Datei | Die PDF-Datei, aus der Bilder extrahiert werden sollen. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein | |
Kennwort | Ja | Direkte verschlüsselte Eingabe oder Textwert | Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist | |
Page(s) to extract | n/v | Alle, Einzeln, Bereich | Alle | Gibt an, wie viele Seiten extrahiert werden sollen: alle Seiten, eine einzelne Seite oder ein Seitenbereich |
Single page number | Nein | Numerischer Wert | Die Zahl der einzelnen Seite, aus der Bilder extrahiert werden sollen | |
From page number | Nein | Numerischer Wert | Die erste Seitenzahl aus dem Seitenbereich, aus dem Bilder extrahiert werden sollen | |
To page number | Nein | Numerischer Wert | Die letzte Seitenzahl aus dem Seitenbereich, aus dem Bilder extrahiert werden sollen | |
Image(s) name | Nein | Textwert | Wie der Name des Bildes/der Bilder beginnt. Beispiel für den Namen des/der extrahierten Bildes/Bilder: VorgegebenerName_1, VorgegebenerName_2 | |
Save image(s) to | Nein | Ordner | Der Ordner, in dem die extrahierten Bilder als PNG-Dateien gespeichert werden sollen |
Erzeugte Variablen
Diese Aktion erzeugt keine Variablen.
Ausnahmen
Ausnahme | Beschreibung des Dataflows |
---|---|
Ungültiges Kennwort | Das angegebene Kennwort ist ungültig |
Fehler beim Extrahieren von Bildern | Gibt an, dass beim Extrahieren von Bildern aus den angegebenen Seiten des PDF-Dokuments ein Fehler aufgetreten ist. |
Ordner ist nicht vorhanden | Gibt an, dass der Ordner nicht vorhanden ist |
PDF-Datei ist nicht vorhanden | Datei ist im angegebenen Pfad nicht vorhanden |
Seiten aus einer PDF-Datei in eine neue PDF-Datei extrahieren
Sie können eine neue PDF-Datei erstellen, indem Sie Seiten aus bestehenden PDF-Dateien mithilfe der Aktion Seiten der PDF-Datei in eine neue PDF-Datei extrahieren verwenden. In den Aktionsparametern können Sie die PDF-Datei, aus der die Seiten extrahiert werden sollen, die zu extrahierenden Seiten, den Speicherort der neuen PDF-Datei und festlegen, was passieren soll, wenn bereits eine Datei mit demselben Namen und derselben Erweiterung vorhanden ist. Schließlich können Sie unter den erweiterten Eigenschaften ein Passwort festlegen, falls die Quell-PDF geschützt ist.
Eingabeparameter
Argument | Optional | Akzeptiert | Standardwert | Beschreibung des Dataflows |
---|---|---|---|---|
PDF file | Nein | Datei | Die PDF-Datei, aus der Seiten extrahiert werden sollen. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein | |
Kennwort | Ja | Direkte verschlüsselte Eingabe oder Textwert | Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist | |
Page selection | Nein | Text Wert | Die Indexnummern der beizubehaltenden Seiten (z. B. 1,3,17-24) | |
Extracted PDF path | Nein | Datei | Der Pfad, in dem die extrahierte PDF-Datei gespeichert werden soll | |
If file exists | n/v | Überschreiben, Nicht überschreiben, Sequenzsuffix hinzufügen | Sequenzielles Suffix hinzufügen | Gibt an, was zu tun ist, falls die Ausgabe-PDF-Datei bereits vorhanden ist |
Erzeugte Variablen
Argument | Type | Beschreibung des Dataflows |
---|---|---|
ExtractedPDF | Datei | Die neue PDF-Datei |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Ungültiges Kennwort | Das angegebene Kennwort ist ungültig |
PDF-Datei ist nicht vorhanden | Datei ist im angegebenen Pfad nicht vorhanden |
Seite außerhalb des zulässigen Bereichs | Gibt an, dass mindestens eine Seite außerhalb des zulässigen Bereichs der PDF-Datei liegt |
Ungültige Seitenauswahl | Gibt an, dass die angegebenen Seiten für die PDF-Datei nicht gültig sind |
Fehler beim Extrahieren der neuen PDF | Gibt an, dass beim Extrahieren der neuen PDF ein Fehler aufgetreten ist |
PDF-Dateien zusammenführen
Führt mehrere PDF-Dateien zu einer neuen zusammen.
Mit der Aktion PDF-Dateien zusammenführen können Sie zwei oder mehr PDF-Dateien zu einer einzigen Datei zusammenführen. Die zusammenzuführenden Dateien können entweder in Form einer Liste oder eingeschlossen in doppelte Anführungszeichen ein und durch ein Trennzeichen getrennt bereitgestellt werden. Sie können auch Passwörter für die PDF-Dateien vergeben, sofern diese passwortgeschützt sind.
Eingabeparameter
Argument | Optional | Akzeptiert | Standardwert | Beschreibung des Dataflows |
---|---|---|---|---|
PDF files | Nein | Liste der Dateien | Die Dateien, die zusammengeführt werden sollen. Schließen Sie mehrere Dateien in doppelte Anführungszeichen (") ein und trennen Sie sie durch ein Trennzeichen, oder verwenden Sie eine Liste von Dateien | |
Merged PDF path | Nein | Datei | Der Pfad, in dem die zusammengeführte PDF gespeichert werden soll | |
If file exists | n/v | Überschreiben, Nicht überschreiben, Sequenzsuffix hinzufügen | Sequenzielles Suffix hinzufügen | Gibt an, was zu tun ist, falls die Zieldatei bereits vorhanden ist |
Kennwörter | Ja | Direkte verschlüsselte Eingabe oder Textwert | Die abgegrenzten Kennwörter. Die Reihenfolge sollte die gleiche sein wie die Reihenfolge der Eingabe-PDFs. Lassen Sie dies leer, wenn die PDFs nicht passwortgeschützt sind | |
Delimiter | Nein | Text Wert | . | Ein benutzerdefiniertes Passwort-Begrenzungszeichen. Dieses Trennzeichen sollte in keinem der Passwörter enthalten sein |
Erzeugte Variablen
Argument | Type | Beschreibung des Dataflows |
---|---|---|
MergedPDF | Datei | Die zusammengeführte PDF-Datei |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
PDF-Datei ist nicht vorhanden | Datei ist im angegebenen Pfad nicht vorhanden |
Ungültiges Kennwort | Das angegebene Kennwort ist ungültig |
Fehler beim Zusammenführen von PDF-Dateien | Gibt an, dass beim Zusammenführen der Dateien ein Fehler aufgetreten ist |