Condividi tramite


Azioni per PDF

Le azioni per PDF ti consentono di estrarre immagini, testo e tabelle da file PDF e disporre le pagine per creare nuovi documenti.

Per estrarre del testo da un file PDF, usare l'azione Estrai testo da PDF. L'esempio seguente estrae testo da un intervallo specifico di pagine di un file protetto da password. La password è specificata nelle impostazioni Avanzate.

Per estrarre testi disposti in forma tabellare, abilita Ottimizza per dati strutturati per migliorare il formato e la precisione dei risultati.

Screenshot dell'azione Estrai testo da PDF.

Per estrarre tabelle da un file PDF, implementa l'azione Estrai tabelle da PDF, seleziona il file e specifica le pagine da cui eseguire l'estrazione.

L'azione produce la variabile ExtractedPDFTables che contiene un elenco di informazioni sulla tabella PDF. Per trovare informazioni su questo tipo di elenco, vedi Tipi di dati avanzati.

Nota

  • L'azione Estrai tabelle da PDF non utilizza il riconoscimento ottico dei caratteri (OCR), quindi non puoi estrarre testo non copiabile dai PDF scansionati.
  • La libreria dietro l'azione estrae occasionalmente dati PDF aggiuntivi che non sono tabelle. Questa funzionalità riduce al minimo il rischio di omettere accidentalmente una tabella reale.

Screenshot dell'azione Estrai tabelle da PDF.

Oltre a estrarre informazioni dai file PDF, puoi creare un nuovo documento PDF da un file esistente utilizzando l'azione Estrai le pagine del file PDF in un nuovo file PDF.

L'esempio seguente seleziona una combinazione di pagine specifiche e un intervallo di pagine.

Screenshot dell'azione Estrai pagine del file PDF in un nuovo file PDF.

Estrai testo da PDF

Puoi estrarre del testo da un file PDF, usando l'azione "Estrai testo da PDF". Nelle proprietà dell'azione è possibile definire il file PDF di origine e le pagine da cui estrarre il testo. Nelle proprietà delle azioni avanzate è possibile definire una password nel caso in cui il file PDF sia protetto e se il motore debba essere ottimizzato per i dati strutturati o meno.

Parametri di input

Argomento Facoltativo Accetta Valore predefinito Descrizione
PDF file No file File PDF da cui estrarre il testo. Immetti un percorso di file, una variabile contenente un file o un percorso di testo
Pagine da estrarre N/A Tutte, Singola, Intervallo Tutte le date Specifica il numero di pagine da estrarre: tutte le pagine, una singola pagina o un intervallo di pagine
Single page number No Valore numerico Numero della pagina singola da cui estrarre il testo
From page number No Valore numerico Numero della prima pagina dell'intervallo di pagine da cui estrarre il testo
To page number No Valore numerico Numero dell'ultima pagina dell'intervallo di pagine da cui estrarre il testo
Password Input crittografato diretto o valore di testo Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password
Ottimizza per dati strutturati N/A Valore booleano False Specifica se rilevare il layout formattato nel documento ed estrarre il testo di conseguenza

Variabili prodotte

Argomento Type Descrizione
ExtractedPDFText Valore di testo Testo estratto

Eccezioni

Eccezione Descrizione
File PDF inesistente Il file non esiste nel percorso specificato
Password non valida La password fornita non è valida
Impossibile estrarre il testo Errore durante il tentativo di estrazione del testo

Estrai tabelle da PDF

È possibile estrarre le tabelle contenute in un file PDF utilizzando l'azione Estrai tabelle da PDF. Nelle proprietà dell'azione è possibile definire il file PDF e l'intervallo di pagine da cui estrarre le tabelle. Nelle proprietà delle azioni avanzate puoi definire una password nel caso in cui il file PDF sia protetto, definire se la tabella ha intestazioni o meno e infine se le tabelle che attraversano i margini della pagina devono essere unite o meno.

Parametri di input

Argomento Facoltativo Accetta Valore predefinito Descrizione
File PDF No file Il PDF da cui estrarre le tabelle. Immetti un percorso di file, una variabile contenente un file o un percorso di testo
Pagine da estrarre N/D Tutte, Singola, Intervallo Tutte le date Specifica il numero di pagine da cui estrarre le tabelle: tutte le pagine, una singola pagina o un intervallo di pagine
Numero pagina singola No Valore numerico Numero della pagina singola da cui estrarre le tabelle
Numero pagina iniziale No Valore numerico Il numero della prima pagina dall'intervallo di pagine da cui estrarre le tabelle
Numero pagina finale No Valore numerico Numero dell'ultima pagina dall'intervallo di pagine da cui estrarre le tabelle
Password Input crittografato diretto o valore di testo Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password
Unisci tabelle che attraversano i margini di pagina N/D Valore booleano Vero Specifica se unire tabelle che attraversano i margini di pagina nell'intervallo di pagine specificato
Prima riga contiene nomi colonne N/D Valore booleano Vero Specifica se la prima riga della tabella contiene i nomi di colonna

Variabili prodotte

Argomento Type Descrizione
ExtractedPDFTables Elenco di informazioni di tabella PDF Tabelle estratte con le relative informazioni come elenco

Eccezioni

Eccezione Descrizione
File PDF inesistente Il file non esiste nel percorso specificato
Password non valida La password fornita non è valida
Impossibile estrarre le tabelle Errore durante il tentativo di estrarre le tabelle

Estrai immagini da PDF

Per estrarre le immagini da un file PDF, puoi utilizzare l'azione Estrai immagini da PDF. Nei parametri dell'azione è possibile definire il file PDF e le pagine da cui estrarre le immagini, la convenzione di denominazione delle immagini estratte e la posizione di destinazione delle immagini salvate. Puoi anche definire una password se il file PDF è protetto nelle impostazioni avanzate.

Parametri di input

Argomento Facoltativo Accetta Valore predefinito Descrizione
PDF file No file File PDF da cui estrarre le immagini. Immetti un percorso di File, una variabile contenente un File o un percorso di testo
Password Input crittografato diretto o valore di testo Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password
Page(s) to extract N/D Tutte, Singola, Intervallo Tutte le date Specifica il numero di pagine da estrarre: tutte le pagine, una singola pagina o un intervallo di pagine
Single page number No Valore numerico Numero della pagina singola da cui estrarre le immagini
From page number No Valore numerico Numero della prima pagina dell'intervallo di pagine da cui estrarre le immagini
To page number No Valore numerico Numero dell'ultima pagina dell'intervallo di pagine da cui estrarre le immagini
Image(s) name No Valore di testo Specifica in che modo inizia il nome delle immagini. Esempio di nomi di immagini estratte: GivenName_1, GivenName_2
Save image(s) to No Cartella Cartella per salvare le immagini estratte come file png

Variabili prodotte

Questa azione non produce variabili.

Eccezioni

Eccezione Descrizione
Password non valida La password fornita non è valida
Impossibile estrarre immagini Indica che si è verificato un errore durante l'estrazione delle immagini dalle pagine specificate del PDF
Cartella inesistente Indica che la cartella non esiste
File PDF inesistente Il file non esiste nel percorso specificato

Estrai pagine del file PDF in un nuovo file PDF

Puoi creare un nuovo file PDF estraendo le pagine da un file PDF esistente usando l'azione Pagine del file PDF in un nuovo file PDF. Nei parametri dell'azione è possibile definire il file PDF da cui estrarre le pagine, le pagine da estrarre, la posizione del nuovo file PDF e cosa dovrebbe succedere se esiste già un file con lo stesso nome e la stessa estensione. Infine, nelle proprietà avanzate è possibile definire una password nel caso in cui il PDF di origine sia protetto.

Parametri di input

Argomento Facoltativo Accetta Valore predefinito Descrizione
PDF file No file File PDF da cui estrarre le pagine. Immetti un percorso di File, una variabile contenente un File o un percorso di testo
Password Input crittografato diretto o valore di testo Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password
Page selection No Valore di testo I numeri di indice delle pagine da mantenere (ad esempio 1,3,17-24)
Extracted PDF path No file Percorso per archiviare il file PDF estratto
If file exists N/D Sovrascrivi, Non sovrascrivere, Aggiungi suffisso sequenziale Aggiungi suffisso sequenziale Specifica l'operazione da eseguire nel caso in cui il file PDF di output esista già

Variabili prodotte

Argomento Type Descrizione
ExtractedPDF file Nuovo file PDF

Eccezioni

Eccezione Descrizione
Password non valida La password fornita non è valida
File PDF inesistente Il file non esiste nel percorso specificato
Pagina fuori intervallo Indica che una o più pagine sono fuori intervallo del file PDF
Selezione pagine non valida Indica che le pagine specificate non sono valide per il file PDF
Impossibile estrarre nuovo PDF Indica che si è verificato un errore durante il tentativo di estrazione di un nuovo PDF

Unisci file PDF

Unisce più file PDF in un nuovo file.

Puoi utilizzare l'azione Unisci file PDF per prendere due o più file PDF e unirli in un unico file. File da unire possono essere forniti sia sotto forma di eenco o racchiuse tra virgolette e separate da un delimitatore. Puoi anche fornire password per i file PDF, nel caso in cui siano protetti da password.

Parametri di input

Argomento Facoltativo Accetta Valore predefinito Descrizione
PDF files No Elenco di file File da unire. Racchiudi più file tra virgolette doppie (") e separali con un delimitatore oppure utilizza un elenco di file
Merged PDF path No file Percorso per archiviare il file PDF unito
If file exists N/D Sovrascrivi, Non sovrascrivere, Aggiungi suffisso sequenziale Aggiungi suffisso sequenziale Specifica l'operazione da eseguire nel caso in cui il file di destinazione esista già
Passwords Input crittografato diretto o valore di testo Password delimitate. L'ordine deve essere lo stesso dell'ordine dei PDF di input. Lascia vuoto questo campo se i file PDF non sono protetti da password
Delimitatore No Valore di testo , Delimitatore di password personalizzato. Il delimitatore non deve far parte di nessuna password

Variabili prodotte

Argomento Type Descrizione
MergedPDF file File PDF unito

Eccezioni

Eccezione Descrizione
File PDF inesistente Il file non esiste nel percorso specificato
Password non valida La password fornita non è valida
Impossibile unire i file PDF Indica che si è verificato un errore durante l'unione dei file