PDF 操作
PDF 操作使您能够从 PDF 文件中提取图像、文本和表,并排列页面以创建新文档。
要从 PDF 文件中提取文本,请使用从 PDF 提取文本操作。 以下示例从受密码保护的文件的特定页面范围中提取文本。 密码在高级设置中指定。
要提取以表格形式排列的文本,请启用针对结构化数据进行优化以改进结果的格式和准确性。
要从 PDF 文件中提取表,请部署从 PDF 中提取表操作,选择文件,然后指定要从中提取的页面。
此操作会生成一个 ExtractedPDFTables 变量,其中包含 PDF 表信息列表。 若要查找关于此类列表的信息,请转到高级数据类型。
备注
- 从 PDF 提取表操作不使用光学字符识别 (OCR),因此您无法从扫描的 PDF 中提取不可复制的文本。
- 此操作背后的库偶尔会提取不是表的其他 PDF 数据。 此功能将意外遗漏实际表的风险降至最低。
除了从 PDF 文件中提取信息外,您还可以使用将 PDF 文件页面提取到新的 PDF 文件中操作从现有文件创建新的 PDF 文档。
以下示例选择特定页面和一系列页面的组合。
从 PDF 提取文本
要从 PDF 文件中提取文本,请使用“从 PDF 提取文本”操作。 在操作属性中,您可以定义源 PDF 文件和从中提取文本的页面。 在高级操作属性下,您可以定义密码,以防 PDF 文件受到保护,以及引擎是否应该针对结构化数据进行优化。
输入参数
参数 | 可选 | 接受 | 默认值 | 说明 |
---|---|---|---|---|
PDF file | 否 | 文件 | 要从中提取文本的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量 | |
要提取的页面 | 不可用 | 所有、单个、范围 | 所有 | 指定要提取的页数: 所有页面、单个页面或许多页面 |
Single page number | 否 | 数值 | 要从中提取文本的单个页面的页码 | |
From page number | 否 | 数值 | 要从中提取文本的页面范围内的第一个页码 | |
To page number | 否 | 数值 | 要从中提取文本的页面范围内的最后一个页码 | |
密码 | 是 | 直接加密的输入或文本值 | PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空 | |
针对结构化数据进行优化 | 不可用 | 布尔值 | 错误 | 指定是否检测文档中的格式化布局并相应地提取文本 |
生成的变量
参数 | 类型 | 说明 |
---|---|---|
ExtractedPDFText | 文本值 | 已提取的文本 |
异常
例外 | 描述 |
---|---|
PDF 文件不存在 | 给定路径中不存在文件 |
密码无效 | 给定密码无效 |
无法提取文本 | 尝试提取文本时出错 |
从 PDF 中提取表
您可以使用从 PDF 中提取表格操作来提取 PDF 文件中包含的表。 在操作属性中,您可以定义 PDF 文件以及从中提取表的页面范围。 在“高级操作属性”下,您可以定义密码以防 PDF 文件受到保护,定义表是否有标题,以及最后是否应该合并跨页边距的表。
输入参数
参数 | 可选 | 接受 | 默认值 | 说明 |
---|---|---|---|---|
PDF 文件 | 否 | 文件 | 要从中提取表的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量 | |
要提取的页面 | 不可用 | 所有、单个、范围 | 所有 | 指定要从中提取表的页数:所有页面、单个页面或一系列页面 |
单个页码 | 否 | 数值 | 要从其中提取表的单个页面的页码 | |
起始页码 | 否 | 数值 | 要从中提取表的页面范围中的第一个页码 | |
终止页码 | 否 | 数值 | 要从中提取表的页面范围中的最后一个页码 | |
密码 | 是 | 直接加密的输入或文本值 | PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空 | |
合并跨页边距的表 | 不可用 | 布尔值 | True | 指定是否合并指定页面范围中跨页边距的表 |
第一行包含列名称 | 不可用 | 布尔值 | True | 指定表的第一行是否包含列名称 |
生成的变量
参数 | 类型 | 说明 |
---|---|---|
ExtractedPDFTables | PDF 表信息列表 | 包含列表式信息的提取表 |
异常
例外 | 说明 |
---|---|
PDF 文件不存在 | 给定路径中不存在文件 |
密码无效 | 给定密码无效 |
无法提取表 | 尝试提取表时出错 |
从 PDF 提取图像
要从 PDF 文件中提取图像,您可以使用从 PDF 中提取图像操作。 在操作参数中,您可以定义 PDF 文件和从中提取图像的页面、提取图像的命名约定以及保存图像的目标位置。 如果 PDF 文件在高级设置下受保护,您也可以定义密码。
输入参数
参数 | 可选 | 接受 | 默认值 | 说明 |
---|---|---|---|---|
PDF file | 否 | 文件 | 要从中提取图像的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量 | |
密码 | 是 | 直接加密的输入或文本值 | PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空 | |
Page(s) to extract | 不适用 | 所有、单个、范围 | 所有 | 指定要提取的页数: 所有页面、单个页面或许多页面 |
Single page number | 否 | 数值 | 要从中提取图像的单个页面的页码 | |
From page number | 否 | 数值 | 要从中提取图像的页面范围中的第一个页码 | |
To page number | 否 | 数值 | 要从中提取图像的页面范围内的最后一个页码 | |
Image(s) name | 否 | 文本值 | 图像名称的开头方式。 取图像的名称示例:GivenName_1、GivenName_2 | |
Save image(s) to | 否 | 文件夹 | 将提取的图像保存为 png 文件的文件夹 |
生成的变量
此操作不会生成任何变量。
异常
例外 | 说明 |
---|---|
密码无效 | 给定密码无效 |
无法提取图像 | 指示从 PDF 的给定页面中提取图像时出错 |
文件夹不存在 | 指示文件夹不存在 |
PDF 文件不存在 | 给定路径中不存在文件 |
将 PDF 文件页面提取到新的 PDF 文件中
您可以通过使用 PDF 文件页面到新 PDF 文件操作从现有 PDF 文件中提取页面来创建新的 PDF 文件。 在操作参数中,您可以定义要从中提取页面的 PDF 文件、要提取的页面、新 PDF 文件的位置,以及如果已经存在具有相同名称和扩展名的文件时应该如何处理。 最后,在高级属性下,您可以定义一个密码,以防源 PDF 受到保护。
输入参数
参数 | 可选 | 接受 | 默认值 | 说明 |
---|---|---|---|---|
PDF file | 否 | 文件 | 要从中提取页面的 PDF 文件。 输入文件路径或者包含文件或文本路径的变量 | |
密码 | 是 | 直接加密的输入或文本值 | PDF 文件的密码。 如果 PDF 未采用密码保护,请将此留空 | |
Page selection | 否 | 文本值 | 要保留的页面的索引号(例如,1、3、17-24) | |
Extracted PDF path | 否 | 文件 | 存储已提取的 PDF 文件的路径 | |
If file exists | 不适用 | 覆盖、不覆盖、添加顺序后缀 | 添加顺序后缀 | 指定输出 PDF 文件已存在时应执行的操作 |
生成的变量
参数 | 类型 | 说明 |
---|---|---|
ExtractedPDF | 文件 | 新的 PDF 文件 |
异常
例外 | 描述 |
---|---|
密码无效 | 给定密码无效 |
PDF 文件不存在 | 给定路径中不存在文件 |
页面超出边界 | 指示一个或多个页面超出 PDF 文件的边界 |
页面选择无效 | 指示给定页面对 PDF 文件无效 |
无法提取新的 PDF | 指示尝试提取新的 PDF 时出错 |
合并 PDF 文件
将多个 PDF 文件合并为一个新文件。
您可以使用合并 PDF 文件操作将两个或更多 PDF 文件合并成一个文件。 要合并的文件可以以列表的形式提供,也可以用双引号括起来并用分隔符隔开。 您也可以为 PDF 文件提供密码,以防它们受密码保护。
输入参数
参数 | 可选 | 接受 | 默认值 | 说明 |
---|---|---|---|---|
PDF files | 否 | 文件列表 | 要合并的文件。 将多个文件用双引号 (") 括起来并用分隔符进行区分,或使用文件列表 | |
Merged PDF path | 否 | 文件 | 存储合并的 PDF 文件的路径 | |
If file exists | 不适用 | 覆盖、不覆盖、添加顺序后缀 | 添加顺序后缀 | 指定目标文件已存在时应执行的操作 |
密码 | 是 | 直接加密的输入或文本值 | 带分隔符的密码。 顺序应与输入的 PDF 的顺序相同。 如果 PDF 未采用密码保护,请将此留空 | |
分隔符 | 否 | 文本值 | , | 自定义密码分隔符。 此分隔符不应存在于任何密码中 |
生成的变量
参数 | 类型 | 说明 |
---|---|---|
MergedPDF | 文件 | 合并的 PDF 文件 |
异常
例外 | 描述 |
---|---|
PDF 文件不存在 | 给定路径中不存在文件 |
密码无效 | 给定密码无效 |
无法合并 PDF 文件 | 指示合并文件时出错 |