PDF 動作
PDF 動作讓您可從 PDF 檔案中擷取圖像、文字及表格,以及排列頁面以建立新的文件。
若要從 PDF 檔案中擷取文字,請使用從 PDF 擷取文字動作。 下列範例會從受到密碼保護檔案的特定頁面範圍中擷取文字。 密碼會在進階設定中指定。
若要擷取以表格式表單排列的文字,請啟用最佳化結構性資料,以改善結果的格式和準確性。
若要從 PDF 檔案中擷取表格,請部署從 PDF 擷取表格動作,接著選取檔案,再指定要從中擷取的頁面。
此動作會產生包含PDF 表格資訊清單的 ExtractedPDFTables 變數。 如需有關此類清單的詳細資訊,請移至進階資料類型。
注意
- 從 PDF 擷取資料表動作不會使用光學字元辨識 (OCR),因此您無法從掃描的 pdf 提取非可複製文字。
- 動作後面的程式庫偶爾會擷取其他不是表格的 PDF 資料。 此功能可將意外忽略真實資料表的風險降至最低。
除了從 PDF 檔案提取資訊之外,您可以使用將 PDF 檔案頁面解壓縮至新的 PDF 檔案動作,從現有的檔案建立新的 PDF 檔案。
下列範例混合選取了特定頁面與一段頁面。
從 PDF 擷取文字
您可以使用「從 PDF 擷取文字」動作從 PDF 檔案中擷取文字。 在動作屬性中,您可以定義來源 PDF 檔案和應從中擷取文字的頁面。 在進階動作屬性底下,您可以定義密碼,以防 PDF 檔案受到保護,和定義引擎是否應針對結構化資料進行最佳化。
輸入參數
引數 | 選用 | 接受 | 預設值 | 描述 |
---|---|---|---|---|
PDF file | 否 | 檔案 | 要擷取文字的來源 PDF 檔案。 請輸入檔案路徑,或是包含檔案或文字路徑的變數 | |
Page(s) to extract | N/A | 所有、單一、範圍 | 所有 | 指定要擷取多少頁面:所有頁面、單一頁面或頁面範圍 |
Single page number | 否 | 數值 | 要擷取文字之單一頁面的頁碼 | |
From page number | 否 | 數值 | 從中擷取文字之頁面範圍的起始頁碼 | |
To page number | 否 | 數值 | 從中擷取文字之頁面範圍的結束頁碼 | |
密碼 | 是 | 直接加密文字輸入或文字值 | PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白 | |
最佳化結構化資料 | N/A | 布林值 | False | 指定是否偵測文件中的格式化配置並據以擷取文字 |
變數已產生
引數 | 類型 | 描述 |
---|---|---|
ExtractedPDFText | 文字值 | 已擷取的文字 |
例外狀況
例外 | 描述 |
---|---|
PDF 檔案不存在 | 檔案不在指定的路徑上 |
密碼無效 | 指定的密碼無效 |
無法擷取文字 | 嘗試擷取文字時發生錯誤 |
從 PDF 擷取資料表
您可以使用從 PDF 擷取資料表動作,來擷取包含在 PDF 檔案中的資料表。 在動作屬性中,您可以定義來源 PDF 檔案和從中擷取資料表的範圍。 在進階動作屬性下,您可以定義密碼,以防 PDF 檔案受到保護、定義資料表是否有標題,以及最後是否應合併跨頁邊距的資料表。
輸入參數
引數 | 選用 | 接受 | 預設值 | 描述 |
---|---|---|---|---|
PDF file | 否 | 檔案 | 從 PDF 檔案擷取資料表。 請輸入檔案路徑,或是包含檔案或文字路徑的變數 | |
Page(s) to extract | 無法使用 | 所有、單一、範圍 | 所有 | 指定有幾頁要擷取資料表: 所有頁面、單一頁面或頁面範圍 |
Single page number | 否 | 數值 | 要擷取資料表的單一頁碼 | |
From page number | 否 | 數值 | 從中擷取資料表之頁面範圍的起始頁碼 | |
To page number | 否 | 數值 | 從中擷取資料表之頁面範圍的結束頁碼 | |
密碼 | 是 | 直接加密文字輸入或文字值 | PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白 | |
合併跨頁面邊距的資料表 | 無法使用 | 布林值 | True | 指定是否要合併指定的頁面範圍內跨頁面邊距的資料表 |
First line contains column names | 無法使用 | 布林值 | True | 指定資料表的第一行是否包含欄名稱 |
變數已產生
引數 | 類型 | 描述 |
---|---|---|
ExtractedPDFTables | PDF 資料表資訊的清單 | 擷取的資料表,並以清單形式顯示其資訊 |
例外狀況
例外狀況 | 名稱 |
---|---|
PDF 檔案不存在 | 檔案不在指定的路徑上 |
密碼無效 | 指定的密碼無效 |
無法擷取資料表 | 嘗試擷取資料表時發生錯誤 |
從 PDF 擷取影像
若要從 PDF 檔案中擷取影像,您可以使用從 PDF 擷取資料表動作。 在動作參數中,您可以定義 PDF 檔案和要從中擷取影像的頁面、擷取影像的命名規則,以及儲存影像的目標位置。 如果 PDF 檔案在進階設定下受到保護,您也可以定義密碼。
輸入參數
引數 | 選用 | 接受 | 預設值 | 描述 |
---|---|---|---|---|
PDF file | 否 | 檔案 | 要擷取影像的來源 PDF 檔案。 請輸入檔案路徑,或是包含檔案或文字路徑的變數 | |
密碼 | 是 | 直接加密文字輸入或文字值 | PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白 | |
Page(s) to extract | 無法使用 | 所有、單一、範圍 | 所有 | 指定要擷取多少頁面: 所有頁面、單一頁面或頁面範圍 |
Single page number | 否 | 數值 | 要擷取影像之單一頁面的頁碼 | |
From page number | 否 | 數值 | 從中擷取影像之頁面範圍的起始頁碼 | |
To page number | 否 | 數值 | 從中擷取影像之頁面範圍的結束頁碼 | |
Image(s) name | 否 | 文字值 | 影像名稱的起始方式。 擷取的影像名稱範例:GivenName_1、GivenName_2 | |
Save image(s) to | 否 | 資料夾 | 將擷取的影像另存為 png 檔案的資料夾 |
變數已產生
此動作不會產生任何變數。
例外狀況
例外狀況 | 描述 |
---|---|
密碼無效 | 指定的密碼無效 |
無法擷取影像 | 表示從 PDF 的指定頁面擷取影像時發生錯誤 |
資料夾不存在 | 表示資料夾不存在 |
PDF 檔案不存在 | 檔案不在指定的路徑上 |
將 PDF 檔案中的頁面擷取至新的 PDF 檔案
您可以使用PDF 檔案頁面至新的 PDF 檔案動作,從現有 PDF 檔案中擷取頁面來建立新的 PDF 文件。 在動作參數中,您可以定義要從中擷取頁面的 PDF 檔案、要擷取的頁面、新 PDF 檔案的位置,以及如果已存在具有相同名稱和副檔名的檔案,會發生什麼情況。 最後,在進階屬性底下,您可以定義密碼,以防來源 PDF 受到保護。
輸入參數
引數 | 選用 | 接受 | 預設值 | 描述 |
---|---|---|---|---|
PDF file | 否 | 檔案 | 要擷取頁面的來源 PDF 檔案。 請輸入檔案路徑,或是包含檔案或文字路徑的變數 | |
密碼 | 是 | 直接加密文字輸入或文字值 | PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白 | |
Page selection | 否 | 文字值 | 要保留的頁面索引號碼 (如 1、3、17-24) | |
Extracted PDF path | 否 | 檔案 | 儲存已擷取 PDF 檔案的路徑 | |
If file exists | 無法使用 | 覆寫、不要覆寫、新增循序尾碼 | 新增循序尾碼 | 指定當輸出 PDF 檔案已經存在時應採取的行動 |
變數已產生
引數 | 類型 | 描述 |
---|---|---|
ExtractedPDF | 檔案 | 新的 PDF 檔案 |
例外狀況
例外 | 描述 |
---|---|
密碼無效 | 指定的密碼無效 |
PDF 檔案不存在 | 檔案不在指定的路徑上 |
頁面超出邊界 | 表示一個或多個頁面超出 PDF 檔案的邊界 |
頁面選擇無效 | 表示指定的頁面不適用於 PDF 檔案 |
無法擷取新的 PDF | 表示嘗試擷取新 PDF 時發生錯誤 |
合併 PDF 檔案
將多個 PDF 檔案合併為一個新檔案。
您可以使用合併 PDF 檔案動作來取得兩個或多個 PDF 檔案,並將它們合併成單一檔案。 要合併的檔案可以用清單的形式顯示,也可以用雙引號括起來並用分隔符號隔開。 您也可以提供 PDF 檔案的密碼 (若有密碼保護的話)。
輸入參數
引數 | 選用 | 接受 | 預設值 | 描述 |
---|---|---|---|---|
PDF files | 否 | 檔案的清單 | 要合併的檔案。 將多個檔案放在雙引號 (") 中,並以分隔符號隔開,或使用檔案清單 | |
Merged PDF path | 否 | 檔案 | 儲存合併之 PDF 檔案的路徑 | |
If file exists | 無法使用 | 覆寫、不要覆寫、新增循序尾碼 | 新增循序尾碼 | 指定當目的地檔案已經存在時應採取的行動 |
密碼 | 是 | 直接加密文字輸入或文字值 | 以分隔符號隔開的密碼。 順序應該與輸入 PDF 的順序相同。 如果 PDF 未以密碼保護,請保留此處空白 | |
分隔符號 | 否 | 文字值 | , | 自訂密碼分隔符號。 此分隔符號不可以是任何密碼的組成部分 |
變數已產生
引數 | 類型 | 描述 |
---|---|---|
MergedPDF | 檔案 | 合併的 PDF 檔案 |
例外狀況
例外 | 描述 |
---|---|
PDF 檔案不存在 | 檔案不在指定的路徑上 |
密碼無效 | 指定的密碼無效 |
無法合併 PDF 檔案 | 表示合併檔案時發生錯誤 |