Azioni per PDF
Le azioni per PDF ti consentono di estrarre immagini, testo e tabelle da file PDF e disporre le pagine per creare nuovi documenti.
Per estrarre del testo da un file PDF, usare l'azione Estrai testo da PDF. L'esempio seguente estrae testo da un intervallo specifico di pagine di un file protetto da password. La password è specificata nelle impostazioni Avanzate.
Per estrarre testi disposti in forma tabellare, abilita Ottimizza per dati strutturati per migliorare il formato e la precisione dei risultati.
Per estrarre tabelle da un file PDF, implementa l'azione Estrai tabelle da PDF, seleziona il file e specifica le pagine da cui eseguire l'estrazione.
L'azione produce la variabile ExtractedPDFTables che contiene un elenco di informazioni sulla tabella PDF. Per trovare informazioni su questo tipo di elenco, vedi Tipi di dati avanzati.
Nota
- L'azione Estrai tabelle da PDF non utilizza il riconoscimento ottico dei caratteri (OCR), quindi non puoi estrarre testo non copiabile dai PDF scansionati.
- La libreria dietro l'azione estrae occasionalmente dati PDF aggiuntivi che non sono tabelle. Questa funzionalità riduce al minimo il rischio di omettere accidentalmente una tabella reale.
Oltre a estrarre informazioni dai file PDF, puoi creare un nuovo documento PDF da un file esistente utilizzando l'azione Estrai le pagine del file PDF in un nuovo file PDF.
L'esempio seguente seleziona una combinazione di pagine specifiche e un intervallo di pagine.
Estrai testo da PDF
Puoi estrarre del testo da un file PDF, usando l'azione "Estrai testo da PDF". Nelle proprietà dell'azione è possibile definire il file PDF di origine e le pagine da cui estrarre il testo. Nelle proprietà delle azioni avanzate è possibile definire una password nel caso in cui il file PDF sia protetto e se il motore debba essere ottimizzato per i dati strutturati o meno.
Parametri di input
Argomento | Facoltativo | Accetta | Valore predefinito | Descrizione |
---|---|---|---|---|
PDF file | No | file | File PDF da cui estrarre il testo. Immetti un percorso di file, una variabile contenente un file o un percorso di testo | |
Pagine da estrarre | N/A | Tutte, Singola, Intervallo | Tutte le date | Specifica il numero di pagine da estrarre: tutte le pagine, una singola pagina o un intervallo di pagine |
Single page number | No | Valore numerico | Numero della pagina singola da cui estrarre il testo | |
From page number | No | Valore numerico | Numero della prima pagina dell'intervallo di pagine da cui estrarre il testo | |
To page number | No | Valore numerico | Numero dell'ultima pagina dell'intervallo di pagine da cui estrarre il testo | |
Password | Sì | Input crittografato diretto o valore di testo | Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password | |
Ottimizza per dati strutturati | N/A | Valore booleano | False | Specifica se rilevare il layout formattato nel documento ed estrarre il testo di conseguenza |
Variabili prodotte
Argomento | Type | Descrizione |
---|---|---|
ExtractedPDFText | Valore di testo | Testo estratto |
Eccezioni
Eccezione | Descrizione |
---|---|
File PDF inesistente | Il file non esiste nel percorso specificato |
Password non valida | La password fornita non è valida |
Impossibile estrarre il testo | Errore durante il tentativo di estrazione del testo |
Estrai tabelle da PDF
È possibile estrarre le tabelle contenute in un file PDF utilizzando l'azione Estrai tabelle da PDF. Nelle proprietà dell'azione è possibile definire il file PDF e l'intervallo di pagine da cui estrarre le tabelle. Nelle proprietà delle azioni avanzate puoi definire una password nel caso in cui il file PDF sia protetto, definire se la tabella ha intestazioni o meno e infine se le tabelle che attraversano i margini della pagina devono essere unite o meno.
Parametri di input
Argomento | Facoltativo | Accetta | Valore predefinito | Descrizione |
---|---|---|---|---|
File PDF | No | file | Il PDF da cui estrarre le tabelle. Immetti un percorso di file, una variabile contenente un file o un percorso di testo | |
Pagine da estrarre | N/D | Tutte, Singola, Intervallo | Tutte le date | Specifica il numero di pagine da cui estrarre le tabelle: tutte le pagine, una singola pagina o un intervallo di pagine |
Numero pagina singola | No | Valore numerico | Numero della pagina singola da cui estrarre le tabelle | |
Numero pagina iniziale | No | Valore numerico | Il numero della prima pagina dall'intervallo di pagine da cui estrarre le tabelle | |
Numero pagina finale | No | Valore numerico | Numero dell'ultima pagina dall'intervallo di pagine da cui estrarre le tabelle | |
Password | Sì | Input crittografato diretto o valore di testo | Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password | |
Unisci tabelle che attraversano i margini di pagina | N/D | Valore booleano | Vero | Specifica se unire tabelle che attraversano i margini di pagina nell'intervallo di pagine specificato |
Prima riga contiene nomi colonne | N/D | Valore booleano | Vero | Specifica se la prima riga della tabella contiene i nomi di colonna |
Variabili prodotte
Argomento | Type | Descrizione |
---|---|---|
ExtractedPDFTables | Elenco di informazioni di tabella PDF | Tabelle estratte con le relative informazioni come elenco |
Eccezioni
Eccezione | Descrizione |
---|---|
File PDF inesistente | Il file non esiste nel percorso specificato |
Password non valida | La password fornita non è valida |
Impossibile estrarre le tabelle | Errore durante il tentativo di estrarre le tabelle |
Estrai immagini da PDF
Per estrarre le immagini da un file PDF, puoi utilizzare l'azione Estrai immagini da PDF. Nei parametri dell'azione è possibile definire il file PDF e le pagine da cui estrarre le immagini, la convenzione di denominazione delle immagini estratte e la posizione di destinazione delle immagini salvate. Puoi anche definire una password se il file PDF è protetto nelle impostazioni avanzate.
Parametri di input
Argomento | Facoltativo | Accetta | Valore predefinito | Descrizione |
---|---|---|---|---|
PDF file | No | file | File PDF da cui estrarre le immagini. Immetti un percorso di File, una variabile contenente un File o un percorso di testo | |
Password | Sì | Input crittografato diretto o valore di testo | Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password | |
Page(s) to extract | N/D | Tutte, Singola, Intervallo | Tutte le date | Specifica il numero di pagine da estrarre: tutte le pagine, una singola pagina o un intervallo di pagine |
Single page number | No | Valore numerico | Numero della pagina singola da cui estrarre le immagini | |
From page number | No | Valore numerico | Numero della prima pagina dell'intervallo di pagine da cui estrarre le immagini | |
To page number | No | Valore numerico | Numero dell'ultima pagina dell'intervallo di pagine da cui estrarre le immagini | |
Image(s) name | No | Valore di testo | Specifica in che modo inizia il nome delle immagini. Esempio di nomi di immagini estratte: GivenName_1, GivenName_2 | |
Save image(s) to | No | Cartella | Cartella per salvare le immagini estratte come file png |
Variabili prodotte
Questa azione non produce variabili.
Eccezioni
Eccezione | Descrizione |
---|---|
Password non valida | La password fornita non è valida |
Impossibile estrarre immagini | Indica che si è verificato un errore durante l'estrazione delle immagini dalle pagine specificate del PDF |
Cartella inesistente | Indica che la cartella non esiste |
File PDF inesistente | Il file non esiste nel percorso specificato |
Estrai pagine del file PDF in un nuovo file PDF
Puoi creare un nuovo file PDF estraendo le pagine da un file PDF esistente usando l'azione Pagine del file PDF in un nuovo file PDF. Nei parametri dell'azione è possibile definire il file PDF da cui estrarre le pagine, le pagine da estrarre, la posizione del nuovo file PDF e cosa dovrebbe succedere se esiste già un file con lo stesso nome e la stessa estensione. Infine, nelle proprietà avanzate è possibile definire una password nel caso in cui il PDF di origine sia protetto.
Parametri di input
Argomento | Facoltativo | Accetta | Valore predefinito | Descrizione |
---|---|---|---|---|
PDF file | No | file | File PDF da cui estrarre le pagine. Immetti un percorso di File, una variabile contenente un File o un percorso di testo | |
Password | Sì | Input crittografato diretto o valore di testo | Password del File PDF. Lascia vuoto questo campo se il PDF non è protetto da password | |
Page selection | No | Valore di testo | I numeri di indice delle pagine da mantenere (ad esempio 1,3,17-24) | |
Extracted PDF path | No | file | Percorso per archiviare il file PDF estratto | |
If file exists | N/D | Sovrascrivi, Non sovrascrivere, Aggiungi suffisso sequenziale | Aggiungi suffisso sequenziale | Specifica l'operazione da eseguire nel caso in cui il file PDF di output esista già |
Variabili prodotte
Argomento | Type | Descrizione |
---|---|---|
ExtractedPDF | file | Nuovo file PDF |
Eccezioni
Eccezione | Descrizione |
---|---|
Password non valida | La password fornita non è valida |
File PDF inesistente | Il file non esiste nel percorso specificato |
Pagina fuori intervallo | Indica che una o più pagine sono fuori intervallo del file PDF |
Selezione pagine non valida | Indica che le pagine specificate non sono valide per il file PDF |
Impossibile estrarre nuovo PDF | Indica che si è verificato un errore durante il tentativo di estrazione di un nuovo PDF |
Unisci file PDF
Unisce più file PDF in un nuovo file.
Puoi utilizzare l'azione Unisci file PDF per prendere due o più file PDF e unirli in un unico file. File da unire possono essere forniti sia sotto forma di eenco o racchiuse tra virgolette e separate da un delimitatore. Puoi anche fornire password per i file PDF, nel caso in cui siano protetti da password.
Parametri di input
Argomento | Facoltativo | Accetta | Valore predefinito | Descrizione |
---|---|---|---|---|
PDF files | No | Elenco di file | File da unire. Racchiudi più file tra virgolette doppie (") e separali con un delimitatore oppure utilizza un elenco di file | |
Merged PDF path | No | file | Percorso per archiviare il file PDF unito | |
If file exists | N/D | Sovrascrivi, Non sovrascrivere, Aggiungi suffisso sequenziale | Aggiungi suffisso sequenziale | Specifica l'operazione da eseguire nel caso in cui il file di destinazione esista già |
Passwords | Sì | Input crittografato diretto o valore di testo | Password delimitate. L'ordine deve essere lo stesso dell'ordine dei PDF di input. Lascia vuoto questo campo se i file PDF non sono protetti da password | |
Delimitatore | No | Valore di testo | , | Delimitatore di password personalizzato. Il delimitatore non deve far parte di nessuna password |
Variabili prodotte
Argomento | Type | Descrizione |
---|---|---|
MergedPDF | file | File PDF unito |
Eccezioni
Eccezione | Descrizione |
---|---|
File PDF inesistente | Il file non esiste nel percorso specificato |
Password non valida | La password fornita non è valida |
Impossibile unire i file PDF | Indica che si è verificato un errore durante l'unione dei file |