Actions PDF
Le groupe d’actions PDF vous permet d’extraire des images, du texte et des tables de fichiers PDF et organiser les pages pour créer de nouveaux documents.
Pour extraire du texte d’un fichier PDF, utilisez l’action Extraire le texte d’un PDF. L’exemple suivant extrait du texte d’une plage de pages spécifique dans un fichier protégé par un mot de passe. Le mot de passe est spécifié dans les paramètres Avancé.
Si vous souhaitez extraire des textes organisés sous forme de tableau, activez l’option Optimiser pour les données structurées pour améliorer le format et la précision des résultats.
Pour extraire des tableaux d’un fichier PDF, déployez l’action Extraire les tableaux du PDF, sélectionnez le fichier et spécifiez les pages à extraire.
L’action produit la variable nommée ExtractedPDFTables qui contient une liste d’informations de la table PDF. Pour trouver des informations sur ce type de liste, accédez à Types de données avancés.
Note
- L’action Extraire les tables d’un fichier PDF n’utilise pas la reconnaissance optique de caractères (OCR), vous ne pouvez donc pas extraire de texte non copiable à partir de PDF numérisés.
- La bibliothèque derrière l’action extrait occasionnellement des données PDF supplémentaires qui ne sont pas des tables. Cette fonctionnalité réduit le risque d’omettre accidentellement une vraie table.
Outre l’extraction d’informations à partir de fichiers PDF, vous pouvez créer un nouveau document PDF à partir d’un fichier existant à l’aide de l’outil Extraire les pages du fichier PDF vers un nouveau fichier PDF.
L’exemple suivant sélectionne une combinaison de pages spécifiques et d’une plage de pages.
Extraire le texte à partir d’un fichier PDF
Vous pouvez extraire le texte d’un fichier PDF en utilisant l’action « Extraire le texte du PDF ». Dans les propriétés de l’action, vous pouvez définir le fichier PDF source et les pages à partir desquelles le texte doit être extrait. Dans les propriétés avancées de l’action, vous pouvez définir un mot de passe au cas où le fichier PDF est protégé et si le moteur doit optimiser les données structurées ou non.
Paramètres d’entrée
Argument | Facultatif | Accepte | Valeur par défaut | Description |
---|---|---|---|---|
PDF file | Non | Fichier | Le fichier PDF duquel extraire le texte. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel | |
Page(s) à extraire | S.O. | Tout, Unique, Plage | Toutes | Spécifie le nombre de pages à extraire : toutes les pages, une seule page ou une plage de pages |
Single page number | Non | Valeur numérique | Numéro de la page unique où extraire le texte | |
From page number | Non | Valeur numérique | Numéro de la première page de la plage de pages sur laquelle extraire le texte | |
To page number | Non | Valeur numérique | Numéro de la dernière page de la plage de pages sur laquelle extraire le texte | |
Password | Oui | Saisie directe chiffrée ou valeur de texte | Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe | |
Optimiser pour les données structurées | S.O. | Valeur booléenne | False | Spécifiez s’il faut détecter une disposition mise en forme dans le document et extraire le texte en conséquence |
Variables produites
Argument | Type | Description |
---|---|---|
ExtractedPDFText | Valeur de texte | Texte extrait |
Exceptions
Exception | Description |
---|---|
Le fichier PDF n’existe pas. | Le fichier n’existe pas sur le chemin d’accès donné. |
Mot de passe non valide | Le mot de passe spécifié n’est pas valide. |
Impossible d’extraire le texte | Erreur lors de la tentative d’extraction du texte |
Extraire des tableaux à partir du PDF
Vous pouvez extraire les tables contenues dans un fichier PDF à l’aide de l’action Extraire les tables du PDF. Dans les propriétés de l’action, vous pouvez définir le fichier PDF et la plage de pages à partir desquelles les tables seront extraites. Dans les propriétés avancées de l’action, vous pouvez définir un mot de passe au cas où le fichier PDF est protégé, définir si la table a des en-têtes ou non et, enfin, si les tables qui traversent les marges de la page doivent être fusionnées ou non.
Paramètres d’entrée
Argument | Facultatif | Accepte | Valeur par défaut | Description |
---|---|---|---|---|
Fichier PDF | Non | Fichier | Le fichier PDF duquel extraire les tables. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel | |
Page(s) à extraire | S.O. | Tout, Unique, Plage | Toutes | Spécifie le nombre de pages où extraire les tableaux : toutes les pages, une seule page ou une plage de pages. |
Numéro de page unique | Non | Valeur numérique | Numéro de la page unique où extraire les tableaux | |
Numéro de la page de début | Non | Valeur numérique | Numéro de la première page de la plage de pages sur laquelle extraire les tableaux | |
Numéro de la page de fin | Non | Valeur numérique | Numéro de la dernière page de la plage de pages où extraire les tableaux | |
Password | Oui | Saisie directe chiffrée ou valeur de texte | Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe | |
Fusionner les tableaux qui croisent les marges de page | S.O. | Valeur booléenne | Vrai | Spécifie s’il faut fusionner les tableaux sur plusieurs marges de page dans la plage de pages spécifiée |
La première ligne contient les noms de colonne. | S.O. | Valeur booléenne | Vrai | Spécifie si la première ligne du tableau contient des noms de colonnes |
Variables produites
Argument | Type | Description |
---|---|---|
ExtractedPDFTables | Liste d’informations de la table PDF | Tables extraites avec leurs informations comme liste |
Exceptions
Exception | Description |
---|---|
Le fichier PDF n’existe pas | Le fichier n’existe pas sur le chemin d’accès donné. |
Mot de passe non valide | Le mot de passe spécifié n’est pas valide. |
Échec de l’extraction des tableaux | Erreur lors de la tentative d’extraction des tableaux |
Extraire les images d’un PDF
Pour extraire les images d’un fichier PDF, vous pouvez utiliser l’action Extraire les images du PDF. Dans les paramètres de l’action, vous pouvez définir le fichier PDF et les pages à partir desquelles extraire les images, la convention d’affectation de noms des images extraites et l’emplacement cible des images enregistrées. Vous pouvez également définir un mot de passe si le fichier PDF est protégé dans les paramètres avancés.
Paramètres d’entrée
Argument | Facultatif | Accepte | Valeur par défaut | Description |
---|---|---|---|---|
PDF file | Non | Fichier | Le fichier PDF duquel extraire les images. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel | |
Password | Oui | Saisie directe chiffrée ou valeur de texte | Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe | |
Page(s) to extract | N/A | Tout, Unique, Plage | Tout | Spécifie le nombre de pages à extraire : toutes les pages, une seule page ou une plage de pages. |
Single page number | Non | Valeur numérique | Numéro de la page unique où extraire les images | |
From page number | Non | Valeur numérique | Numéro de la première page de la plage de pages sur laquelle extraire les images | |
To page number | Non | Valeur numérique | Numéro de la dernière page de la plage de pages où extraire les images | |
Image(s) name | Non | Valeur de texte | Début du nom de la ou des images. Exemple de nom d’images extraites : GivenName_1, GivenName_2 | |
Save image(s) to | Non | Dossier | Dossier où enregistrer les images extraites en tant que fichiers png |
Variables produites
Cette action ne produit aucune variable.
Exceptions
Exception | Description |
---|---|
Mot de passe non valide | Le mot de passe spécifié n’est pas valide |
Impossible d’extraire les images | Indique qu’une erreur s’est produite lors de l’extraction des images à partir des pages données du PDF |
Le dossier n’existe pas | Indique que le dossier n’existe pas. |
Le fichier PDF n’existe pas | Le fichier n’existe pas sur le chemin d’accès donné |
Extraire les pages d’un fichier PDF vers un nouveau fichier PDF
Vous pouvez créer un nouveau fichier PDF en extrayant les pages d’un fichier PDF existant à l’aide de l’action Extraire les pages du fichier PDF dans un nouveau fichier PDF. Dans les paramètres de l’action, vous pouvez définir le fichier PDF à partir duquel extraire les pages, les pages à extraire, l’emplacement du nouveau fichier PDF et ce qui doit se produire si un fichier avec le même nom et la même extension existe déjà. Enfin, dans les propriétés avancées, vous pouvez définir un mot de passe au cas où le PDF source est protégé.
Paramètres d’entrée
Argument | Facultatif | Accepte | Valeur par défaut | Description |
---|---|---|---|---|
PDF file | Non | Fichier | Le fichier PDF duquel extraire les pages. Entrer un chemin d’accès de fichier, une variable contenant un fichier ou un chemin d’accès textuel | |
Password | Oui | Saisie directe chiffrée ou valeur de texte | Mot de passe du fichier PDF. Ne pas renseigner ce champ si le fichier PDF n’est pas protégé par un mot de passe | |
Page selection | Non | Valeur de texte | Les numéros d’index des pages à conserver (par exemple, 1, 3, 17-24) | |
Extracted PDF path | Non | Fichier | Chemin d’accès où stocker le fichier PDF extrait | |
If file exists | N/A | Remplacer, Ne pas remplacer, Ajouter un suffixe séquentiel | Ajouter un suffixe séquentiel | Spécifie ce qui doit être fait au cas où le fichier PDF de sortie existe déjà. |
Variables produites
Argument | Type | Description |
---|---|---|
ExtractedPDF | Fichier | Nouveau fichier PDF |
Exceptions
Exception | Description |
---|---|
Mot de passe non valide | Le mot de passe spécifié n’est pas valide. |
Le fichier PDF n’existe pas. | Le fichier n’existe pas sur le chemin d’accès donné. |
Page hors limites | Indique qu’une ou plusieurs pages sont hors des limites du fichier PDF. |
Sélection de la page non valide | Indique que les pages données ne sont pas valides pour le fichier PDF |
Impossible d’extraire le nouveau PDF | Indique qu’une erreur s’est produite lors de la tentative d’extraction d’un nouveau PDF |
Fusionner les fichiers PDF
Fusionner plusieurs fichiers PDF en un nouveau.
Vous pouvez utiliser l’action Fusionner les fichiers PDF pour prendre deux ou plusieurs fichiers PDF et les fusionner en un seul fichier. Les fichiers à fusionner peuvent être fournis sous la forme d’une liste, ou encadrés entre guillemets doubles et séparés par un délimiteur. Vous pouvez également fournir des mots de passe pour les fichiers PDF, au cas où ils seraient protégés par mot de passe.
Paramètres d’entrée
Argument | Facultatif | Accepte | Valeur par défaut | Description |
---|---|---|---|---|
PDF files | Non | Liste des fichiers | Les fichiers à fusionner. Encadrer plusieurs fichiers entre guillemets doubles (") et les séparer par un séparateur ou utiliser une liste de fichiers | |
Merged PDF path | Non | Fichier | Chemin d’accès où stocker le fichier PDF fusionné | |
If file exists | N/A | Remplacer, Ne pas remplacer, Ajouter un suffixe séquentiel | Ajouter un suffixe séquentiel | Spécifie ce qui doit être fait au cas où le fichier de destination existe déjà |
Passwords | Oui | Saisie directe chiffrée ou valeur de texte | Les mots de passe délimités. L’ordre doit être le même que l’ordre des fichiers PDF d’entrée. Ne renseignez pas ce champ si les fichiers PDF ne sont pas protégés par un mot de passe | |
Délimiteur | Non | Valeur de texte | , | Un délimiteur de mot de passe personnalisé. Ce délimiteur ne doit pas faire partie des mots de passe |
Variables produites
Argument | Type | Description |
---|---|---|
MergedPDF | Fichier | Fichier PDF fusionné |
Exceptions
Exception | Description |
---|---|
Le fichier PDF n’existe pas. | Le fichier n’existe pas sur le chemin d’accès donné. |
Mot de passe non valide | Le mot de passe spécifié n’est pas valide |
Échec de la fusion des fichiers PDF | Indique qu’une erreur s’est produite lors de la fusion des fichiers |