Freigeben über


PDF-Aktionen

Mit PDF-Aktionen können Sie Bilder, Text und Tabellen aus PDF-Dateien extrahieren und Seiten anordnen, um neue Dokumente zu erstellen.

Um Text aus einer PDF-Datei zu extrahieren, verwenden Sie die Aktion Text aus PDF extrahieren. Das folgenden Beispiel extrahiert Text aus einem bestimmten Seitenbereich einer kennwortgeschützten Datei. Das Kennwort wird in den Erweiterten Einstellungen festgelegt.

Um tabellarisch angeordnete Texte zu extrahieren, aktivieren Sie die Option Für strukturierte Daten optimieren zur Verbesserung des Formats und der Genauigkeit der Ergebnisse.

Screenshot der Aktion „Text aus PDF extrahieren“.

Stellen Sie zum Extrahieren von Tabellen aus einer PDF-Datei die Aktion Tabellen aus PDF extrahieren bereit, wählen Sie die Datei aus und geben Sie die zu extrahierenden Seiten an.

Die Aktion erzeugt die Variable ExtractedPDFTables, die eine Liste mit PDF-Tabelleninformationen enthält. Informationen zu diesem Listentyp finden Sie unter Erweiterte Datentypen.

Notiz

  • Die Aktion Tabellen aus PDF extrahieren verwendet keine optische Zeichenerkennung (OCR), sodass Sie keinen nicht kopierbaren Text aus gescannten PDFs extrahieren können.
  • Die Bibliothek hinter der Aktion extrahiert gelegentlich zusätzliche PDF-Daten, die keine Tabellen sind. Diese Funktionalität minimiert das Risiko, versehentlich eine echte Tabelle auszulassen.

Screenshot der Aktion „Tabellen aus PDF extrahieren“.

Neben dem Extrahieren von Informationen aus PDF-Dateien können Sie mithilfe der Aktion Seiten der PDF-Datei in eine neue PDF-Datei extrahieren ein neues PDF-Dokument aus einer vorhandenen Datei erstellen.

Das folgende Beispiel wählt eine Kombination aus bestimmten Seiten und einem Seitenbereich aus.

Screenshot der Aktion „Seiten aus einer PDF-Datei in eine neue PDF-Datei extrahieren“.

Text aus PDF extrahieren

Sie können Text mithilfe der Aktion „Text aus PDF extrahieren“ aus einer PDF-Datei extrahieren. In den Aktionseigenschaften können Sie die Quell-PDF und die Seiten festlegen, aus denen Text extrahiert werden soll. Unter den erweiterten Aktionseigenschaften können Sie ein Passwort festlegen, falls die PDF-Datei geschützt ist und ob das Modul für strukturierte Daten optimiert werden soll oder nicht.

Eingabeparameter

Argument Optional Akzeptiert Standardwert Beschreibung des Dataflows
PDF file Nein Datei Die PDF-Datei, aus der Text extrahiert werden soll. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein
Zu extrahierende Seiten NICHT ZUTREFFEND Alle, Einzeln, Bereich Alle Gibt an, wie viele Seiten extrahiert werden sollen: alle Seiten, eine einzelne Seite oder ein Seitenbereich
Single page number Nein Numerischer Wert Die Zahl der einzelnen Seite, aus der Text extrahiert werden soll
From page number Nein Numerischer Wert Die erste Seitenzahl aus dem Seitenbereich, aus dem Text extrahiert werden soll
To page number Nein Numerischer Wert Die letzte Seitenzahl aus dem Seitenbereich, aus dem Text extrahiert werden soll
Kennwort Ja Direkte verschlüsselte Eingabe oder Textwert Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist
Für strukturierte Daten optimieren NICHT ZUTREFFEND Boolescher Wert False Geben Sie an, ob formatiertes Layout im Dokument erkannt und Text extrahiert werden soll

Erzeugte Variablen

Argument Type Beschreibung des Dataflows
ExtractedPDFText Text Wert Der extrahierte Text

Ausnahmen

Ausnahme Beschreibung
PDF-Datei ist nicht vorhanden Datei ist im angegebenen Pfad nicht vorhanden
Ungültiges Kennwort Das angegebene Kennwort ist ungültig
Fehler beim Extrahieren von Text Beim Extrahieren von Text ist ein Fehler aufgetreten

Tabellen aus PDF extrahieren

Sie können Tabellen, die in einer PDF-Datei enthalten sind, mithilfe der Aktion Tabellen aus PDF extrahieren. In den Aktionseigenschaften können Sie die Quell-PDF und den Seitenumfang festlegen, aus denen die Tabellen extrahiert werden sollen. Unter den erweiterten Aktionseigenschaften können Sie ein Passwort festlegen, falls die PDF-Datei geschützt ist, festlegen, ob die Tabelle Kopfzeilen hat oder nicht und ob Tabellen, die sich über Seitenränder erstrecken, zusammengeführt werden sollen oder nicht.

Eingabeparameter

Argument Optional Akzeptiert Standardwert Beschreibung des Dataflows
PDF Datei Nein Datei Die PDF-Datei, aus der Tabellen extrahiert werden sollen. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein
Zu extrahierende Seiten NICHT ZUTREFFEND Alle, Einzeln, Bereich Alle Gibt an, aus wie vielen Seiten Tabellen extrahiert werden sollen: alle Seiten, eine einzelne Seite oder ein Seitenbereich
Nummer einzelne Seite Nein Numerischer Wert Die Nummer der einzelnen Seite, aus der Tabellen extrahiert werden sollen
Ab Seitennummer Nein Numerischer Wert Die erste Seitenzahl aus dem Seitenbereich, aus dem Tabellen extrahiert werden sollen
Bis Seitennummer Nein Numerischer Wert Die letzte Seitenzahl aus dem Seitenbereich, aus dem Tabellen extrahiert werden sollen
Kennwort Ja Direkte verschlüsselte Eingabe oder Textwert Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist
Tabellen, die über den Seitenbereich hinausgehen, zusammenführen NICHT ZUTREFFEND Boolescher Wert true Gibt an, ob Tabellen zusammengeführt werden sollen, die über die Seitenränder im angegebenen Seitenbereich hinausgehen
Erste Zeile enthält Spaltennamen NICHT ZUTREFFEND Boolescher Wert true Gibt an, ob die erste Zeile der Tabelle Spaltennamen enthält

Erzeugte Variablen

Argument Type Beschreibung des Dataflows
ExtractedPDFTables Liste der PDF-Tabelleninformationen Die extrahierten Tabellen mit ihren Informationen als Liste

Ausnahmen

Ausnahme Beschreibung des Dataflows
PDF-Datei ist nicht vorhanden Datei ist im angegebenen Pfad nicht vorhanden
Ungültiges Kennwort Das angegebene Kennwort ist ungültig
Fehler beim Extrahieren von Tabellen Beim Extrahieren von Tabellen ist ein Fehler aufgetreten

Bilder aus PDF extrahieren

Verwenden Sie zum Extrahieren von Bildern aus einer PDF-Datei die Aktion Bilder aus PDF extrahieren. In den Aktionsparametern können Sie die PDF-Datei und die Seiten, aus denen Bilder extrahiert werden sollen, die Namenskonvention der extrahierten Bilder und den Zielspeicherort der gespeicherten Bilder festlegen. Sie können auch ein Passwort festlegen, wenn die PDF-Datei in den erweiterten Einstellungen geschützt ist.

Eingabeparameter

Argument Optional Akzeptiert Standardwert Beschreibung des Dataflows
PDF file Nein Datei Die PDF-Datei, aus der Bilder extrahiert werden sollen. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein
Kennwort Ja Direkte verschlüsselte Eingabe oder Textwert Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist
Page(s) to extract n/v Alle, Einzeln, Bereich Alle Gibt an, wie viele Seiten extrahiert werden sollen: alle Seiten, eine einzelne Seite oder ein Seitenbereich
Single page number Nein Numerischer Wert Die Zahl der einzelnen Seite, aus der Bilder extrahiert werden sollen
From page number Nein Numerischer Wert Die erste Seitenzahl aus dem Seitenbereich, aus dem Bilder extrahiert werden sollen
To page number Nein Numerischer Wert Die letzte Seitenzahl aus dem Seitenbereich, aus dem Bilder extrahiert werden sollen
Image(s) name Nein Textwert Wie der Name des Bildes/der Bilder beginnt. Beispiel für den Namen des/der extrahierten Bildes/Bilder: VorgegebenerName_1, VorgegebenerName_2
Save image(s) to Nein Ordner Der Ordner, in dem die extrahierten Bilder als PNG-Dateien gespeichert werden sollen

Erzeugte Variablen

Diese Aktion erzeugt keine Variablen.

Ausnahmen

Ausnahme Beschreibung des Dataflows
Ungültiges Kennwort Das angegebene Kennwort ist ungültig
Fehler beim Extrahieren von Bildern Gibt an, dass beim Extrahieren von Bildern aus den angegebenen Seiten des PDF-Dokuments ein Fehler aufgetreten ist.
Ordner ist nicht vorhanden Gibt an, dass der Ordner nicht vorhanden ist
PDF-Datei ist nicht vorhanden Datei ist im angegebenen Pfad nicht vorhanden

Seiten aus einer PDF-Datei in eine neue PDF-Datei extrahieren

Sie können eine neue PDF-Datei erstellen, indem Sie Seiten aus bestehenden PDF-Dateien mithilfe der Aktion Seiten der PDF-Datei in eine neue PDF-Datei extrahieren verwenden. In den Aktionsparametern können Sie die PDF-Datei, aus der die Seiten extrahiert werden sollen, die zu extrahierenden Seiten, den Speicherort der neuen PDF-Datei und festlegen, was passieren soll, wenn bereits eine Datei mit demselben Namen und derselben Erweiterung vorhanden ist. Schließlich können Sie unter den erweiterten Eigenschaften ein Passwort festlegen, falls die Quell-PDF geschützt ist.

Eingabeparameter

Argument Optional Akzeptiert Standardwert Beschreibung des Dataflows
PDF file Nein Datei Die PDF-Datei, aus der Seiten extrahiert werden sollen. Geben Sie einen Dateipfad, eine Variable, die eine Datei enthält, oder einen Textpfad ein
Kennwort Ja Direkte verschlüsselte Eingabe oder Textwert Das Kennwort der PDF-Datei. Lassen Sie dies leer, wenn die PDF-Datei nicht kennwortgeschützt ist
Page selection Nein Text Wert Die Indexnummern der beizubehaltenden Seiten (z. B. 1,3,17-24)
Extracted PDF path Nein Datei Der Pfad, in dem die extrahierte PDF-Datei gespeichert werden soll
If file exists n/v Überschreiben, Nicht überschreiben, Sequenzsuffix hinzufügen Sequenzielles Suffix hinzufügen Gibt an, was zu tun ist, falls die Ausgabe-PDF-Datei bereits vorhanden ist

Erzeugte Variablen

Argument Type Beschreibung des Dataflows
ExtractedPDF Datei Die neue PDF-Datei

Ausnahmen

Ausnahme Beschreibung
Ungültiges Kennwort Das angegebene Kennwort ist ungültig
PDF-Datei ist nicht vorhanden Datei ist im angegebenen Pfad nicht vorhanden
Seite außerhalb des zulässigen Bereichs Gibt an, dass mindestens eine Seite außerhalb des zulässigen Bereichs der PDF-Datei liegt
Ungültige Seitenauswahl Gibt an, dass die angegebenen Seiten für die PDF-Datei nicht gültig sind
Fehler beim Extrahieren der neuen PDF Gibt an, dass beim Extrahieren der neuen PDF ein Fehler aufgetreten ist

PDF-Dateien zusammenführen

Führt mehrere PDF-Dateien zu einer neuen zusammen.

Mit der Aktion PDF-Dateien zusammenführen können Sie zwei oder mehr PDF-Dateien zu einer einzigen Datei zusammenführen. Die zusammenzuführenden Dateien können entweder in Form einer Liste oder eingeschlossen in doppelte Anführungszeichen ein und durch ein Trennzeichen getrennt bereitgestellt werden. Sie können auch Passwörter für die PDF-Dateien vergeben, sofern diese passwortgeschützt sind.

Eingabeparameter

Argument Optional Akzeptiert Standardwert Beschreibung des Dataflows
PDF files Nein Liste der Dateien Die Dateien, die zusammengeführt werden sollen. Schließen Sie mehrere Dateien in doppelte Anführungszeichen (") ein und trennen Sie sie durch ein Trennzeichen, oder verwenden Sie eine Liste von Dateien
Merged PDF path Nein Datei Der Pfad, in dem die zusammengeführte PDF gespeichert werden soll
If file exists n/v Überschreiben, Nicht überschreiben, Sequenzsuffix hinzufügen Sequenzielles Suffix hinzufügen Gibt an, was zu tun ist, falls die Zieldatei bereits vorhanden ist
Kennwörter Ja Direkte verschlüsselte Eingabe oder Textwert Die abgegrenzten Kennwörter. Die Reihenfolge sollte die gleiche sein wie die Reihenfolge der Eingabe-PDFs. Lassen Sie dies leer, wenn die PDFs nicht passwortgeschützt sind
Delimiter Nein Text Wert . Ein benutzerdefiniertes Passwort-Begrenzungszeichen. Dieses Trennzeichen sollte in keinem der Passwörter enthalten sein

Erzeugte Variablen

Argument Type Beschreibung des Dataflows
MergedPDF Datei Die zusammengeführte PDF-Datei

Ausnahmen

Ausnahme Beschreibung
PDF-Datei ist nicht vorhanden Datei ist im angegebenen Pfad nicht vorhanden
Ungültiges Kennwort Das angegebene Kennwort ist ungültig
Fehler beim Zusammenführen von PDF-Dateien Gibt an, dass beim Zusammenführen der Dateien ein Fehler aufgetreten ist