Acciones PDF
Las acciones de PDF le permiten extraer imágenes, texto y tablas de archivos PDF y organizar páginas para crear nuevos documentos.
Para extraer texto de un archivo PDF, utilice la acción Extraer texto del PDF. El siguiente ejemplo extrae texto de un rango específico de páginas de un archivo protegido por contraseña. La contraseña se especifica en la configuración Avanzada.
Si desea extraer textos organizados en formato tabular, habilite la opción Optimizar para datos estructurados para mejorar el formato y la precisión de los resultados.
Para extraer tablas de un archivo PDF, implemente la acción Extraer tablas de PDF, seleccione el archivo y especifique las páginas desde las que extraer.
La acción produce una variable llamada ExtractedPDFTables que contiene una lista de información de la tabla PDF. Para encontrar información sobre este tipo de lista, vaya a Tipos de datos avanzados.
Nota
- La acción Extraer tablas de PDF no utiliza el reconocimiento óptico de caracteres (OCR), por lo que no puede extraer texto no copiable de archivos PDF escaneados.
- La biblioteca detrás de la acción extrae ocasionalmente datos PDF adicionales que no son tablas. Esta funcionalidad minimiza el riesgo de omitir accidentalmente una tabla real.
Además de extraer información de archivos PDF, puede crear un nuevo documento PDF a partir de un archivo existente utilizando la acción Extraer páginas de archivos PDF a un nuevo archivo PDF.
El siguiente ejemplo selecciona una combinación de páginas específicas y un rango de páginas.
Extraer texto del PDF
Puede extraer texto de un archivo PDF mediante la acción "Extraer texto del PDF". En las propiedades de la acción, puede definir el archivo PDF de origen y las páginas de las que se debe extraer el texto. En las propiedades de acción avanzadas, puede definir una contraseña en caso de que el archivo PDF esté protegido y si el motor debe optimizarse para datos estructurados o no.
Parámetros de entrada
Argumento | Opcionales | Acepta | Valor predeterminado | Descripción |
---|---|---|---|---|
PDF file | No | Archivo | Archivo PDF del que extraer el texto. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto | |
Página(s) a extraer | N/D | Todo, Individual, Rango | Todos | Especifica cuántas páginas se deben extraer: todas las páginas, una sola página o un intervalo de páginas |
Single page number | No | Valor numérico | Número de la página de la que se va a extraer texto | |
From page number | No | Valor numérico | Primer número de página del intervalo de páginas de las que se va a extraer texto | |
To page number | No | Valor numérico | Último número de página del intervalo de páginas de las que se va a extraer texto | |
Contraseña | Sí | Entrada directa cifrada o valor de texto | Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña | |
Optimizar para datos estructurados | N/D | Valor booleano | False | Especifique si desea detectar el diseño con formato en el documento y extraer el texto en consecuencia |
Variables producidas
Argumento | Type | Descripción |
---|---|---|
ExtractedPDFText | Valor de texto | Texto extraído |
Excepciones
Excepción | Descripción |
---|---|
El archivo PDF no existe | El archivo no existe en la ruta especificada |
Contraseña no válida | La contraseña especificada no es válida |
No se pudo extraer texto | Error al intentar extraer texto |
Extraer tablas de PDF
Puede extraer tablas contenidas en un archivo PDF con la acción Extraer tablas del PDF. En las propiedades de la acción, puede definir el archivo PDF y el rango las páginas de las que se deben extraer las tablas. En las propiedades de acción avanzadas, puede definir una contraseña en caso de que el archivo PDF esté protegido, definir si la tabla tiene encabezados o no y, finalmente, si las tablas que cruzan los márgenes de la página deben fusionarse o no.
Parámetros de entrada
Argumento | Opcionales | Acepta | Valor predeterminado | Descripción |
---|---|---|---|---|
Archivo PDF | No | Archivo | El archivo PDF del que extraer tablas. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto | |
Página(s) a extraer | N/D | Todo, Individual, Rango | Toda | Especifica cuántas páginas se extraerán de las tablas: todas las páginas, una sola página o un intervalo de páginas |
Número de página único | No | Valor numérico | El número de la única página de la que se extraerán tablas | |
Desde número de página | No | Valor numérico | El primer número de página del intervalo de páginas del que se extraerán tablas | |
Hasta número de página | No | Valor numérico | Último número de página del intervalo de páginas del que se extraerán tablas | |
Contraseña | Sí | Entrada directa cifrada o valor de texto | Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña | |
Combinar tablas que cruzan márgenes de página | N/D | Valor booleano | VERDADERO | Especifica si se combinan tablas que cruzan márgenes de página en el intervalo de páginas especificado |
La primera línea contiene nombres de columnas | N/D | Valor booleano | VERDADERO | Especifica si la primera línea de la tabla contiene nombres de columna |
Variables producidas
Argumento | Type | Descripción |
---|---|---|
ExtractedPDFTables | Lista de información de tabla PDF | Las tablas extraídas con su información como lista |
Excepciones
Excepción | Descripción |
---|---|
El archivo PDF no existe | El archivo no existe en la ruta especificada |
Contraseña no válida | La contraseña especificada no es válida |
No se pudieron extraer tablas | Error al intentar extraer tablas |
Extraer las imágenes del PDF
Para extraer imágenes de un archivo PDF puede usar la acción Extraer imágenes del PDF. En los parámetros de acción, puede definir el archivo PDF y las páginas de las que extraer imágenes, la convención de nomenclatura de las imágenes extraídas y la ubicación de destino de las imágenes guardadas. También puede definir una contraseña si el archivo PDF está protegido con la configuración avanzada.
Parámetros de entrada
Argumento | Opcionales | Acepta | Valor predeterminado | Descripción |
---|---|---|---|---|
PDF file | No | Archivo | Archivo PDF del que extraer las imágenes. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto | |
Contraseña | Sí | Entrada directa cifrada o valor de texto | Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña | |
Page(s) to extract | N/D | Todo, Individual, Rango | Toda | Especifica cuántas páginas se deben extraer: todas las páginas, una sola página o un intervalo de páginas |
Single page number | No | Valor numérico | Número de la página de la que se van a extraer imágenes | |
From page number | No | Valor numérico | Primer número de página del intervalo de páginas de las que se van a extraer imágenes | |
To page number | No | Valor numérico | Último número de página del intervalo de páginas de las que se van a extraer imágenes | |
Image(s) name | No | Valor de texto | Cómo comienza el nombre de las imágenes. Ejemplo de nombre de imágenes extraídas: GivenName_1, GivenName_2 | |
Save image(s) to | No | Carpeta | Carpeta para guardar las imágenes extraídas como archivos PNG |
Variables producidas
Esta acción no produce ninguna variable.
Excepciones
Excepción | Descripción |
---|---|
Contraseña no válida | La contraseña especificada no es válida |
No se pudieron extraer las imágenes | Indica que se ha producido un error al extraer las imágenes de las páginas especificadas del PDF |
La carpeta no existe | Indica que la carpeta no existe |
El archivo PDF no existe | El archivo no existe en la ruta especificada |
Extraer páginas de un archivo PDF a un nuevo archivo PDF
Puede crear un nuevo archivo PDF al extraer páginas de un archivo PDF existente si usa la acción Extraer páginas de archivos PDF a un nuevo archivo PDF. En los parámetros de acción puede definir el archivo PDF del que extraer las páginas, las páginas que se extraerán, la ubicación del nuevo archivo PDF y qué debería suceder si ya existe un archivo con el mismo nombre y extensión. Finalmente, en las propiedades avanzadas puede definir una contraseña en caso de que el PDF de origen esté protegido.
Parámetros de entrada
Argumento | Opcionales | Acepta | Valor predeterminado | Descripción |
---|---|---|---|---|
PDF file | No | Archivo | Archivo PDF del que extraer las páginas. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto | |
Contraseña | Sí | Entrada directa cifrada o valor de texto | Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña | |
Page selection | No | Valor de texto | Los números de índice de las páginas que se conservarán (por ejemplo, 1, 3, 17-24) | |
Extracted PDF path | No | Archivo | Ruta para almacenar el archivo PDF extraído | |
If file exists | N/D | Sobrescribir, No sobrescribir, Agregar sufijo secuencial | Agregar sufijo secuencial | Especifica qué se debe hacer en caso de que el archivo PDF de salida ya exista |
Variables producidas
Argumento | Type | Descripción |
---|---|---|
ExtractedPDF | Archivo | El nuevo archivo PDF |
Excepciones
Excepción | Descripción |
---|---|
Contraseña no válida | La contraseña especificada no es válida |
El archivo PDF no existe | El archivo no existe en la ruta especificada |
Página fuera de los límites | Indica que una o más páginas están fuera de los límites del archivo PDF |
Selección de página no válida | Indica que las páginas especificadas no son válidas para el archivo PDF |
No se pudo extraer un nuevo PDF | Indica que se ha producido un error al intentar extraer un nuevo PDF |
Combinar archivos PDF
Combina varios archivos PDF en uno nuevo.
Puede utilizar la acción Fusionar archivos PDF para tomar dos o más archivos PDF y fusionarlos en un solo archivo. Los archivos que se van a combinar se pueden proporcionar en formato de lista o entre comillas dobles y separados con un delimitador. También puede proporcionar contraseñas para los archivos PDF, en caso de que estén protegidos con contraseña.
Parámetros de entrada
Argumento | Opcionales | Acepta | Valor predeterminado | Descripción |
---|---|---|---|---|
PDF files | No | Lista de archivos | Los archivos para combinar. Escriba los distintos archivos entre comillas dobles (") y sepárelos con un delimitador o use una lista de archivos | |
Merged PDF path | No | Archivo | Ruta para almacenar el PDF combinado | |
If file exists | N/D | Sobrescribir, No sobrescribir, Agregar sufijo secuencial | Agregar sufijo secuencial | Especifica qué se debe hacer en caso de que el archivo de destino ya exista |
Contraseñas | Sí | Entrada directa cifrada o valor de texto | Las contraseñas delimitadas. El orden debe ser el mismo que el de los PDF de entrada. Deje esto en blanco si los PDF no están protegidos con contraseña | |
Delimitador | No | Valor de texto | , | Un delimitador de contraseña personalizado. Este delimitador no debe formar parte de ninguna de las contraseñas |
Variables producidas
Argumento | Type | Descripción |
---|---|---|
MergedPDF | Archivo | Archivo PDF combinado |
Excepciones
Excepción | Descripción |
---|---|
El archivo PDF no existe | El archivo no existe en la ruta especificada |
Contraseña no válida | La contraseña especificada no es válida |
No se pudieron combinar los archivos PDF | Indica que se ha producido un error al combinar los archivos |