共用方式為


使用預先建置的模型從 Microsoft Syntex 中的簡單檔擷取資訊

簡單文件處理模型提供彈性且預先定型的解決方案,可從基本結構化檔擷取資訊,包括下列資訊:

  • 機碼/值組 – 請考慮這些像是卷標及其對應的資訊,例如「名稱:Adele Vance」。

  • 選取標記 – 這些是複選框或其他標記,表示檔中的選擇或選取專案。

  • 具名實體 – 這些是特定專案,例如檔文字中提及的人員、地點或組織名稱。

  • 條碼 – 這些是計算機可讀取的數據表示法,可用於檔中的追蹤或識別用途。

不同於其他具有固定架構的預先建置模型,此模型可以識別其他人可能會遺漏的索引鍵,提供自定義模型卷標和定型的寶貴替代方案。 此模型也支援條碼和語言偵測。

檔案類型

簡單檔案處理最適合包含結構化資訊的檔案類型,例如:

  • Forms – 這些通常具有清楚的字段和標籤,可讓您更輕鬆地擷取索引鍵/值組。

  • 發票 – 通常包含具有數據表和機碼/值組的一致版面配置。

  • 收據 – 類似於發票,其具有可輕鬆擷取的結構化數據。

  • 合約 – 包含定義完善的區段和子句,可以有效地剖析。

  • 銀行對帳單 – 包含適合擷取的數據表和結構化數據。

這些檔受益於光學字元識別 (OCR) 功能,以及用來擷取索引鍵/值組、選取標記、數據表和具名實體的深度學習程式。

注意事項

目前,此模型適用於 .pdf 和圖像檔類型,以及超過 100 種語言。 未來版本將會新增更多支援的檔案類型。

若要使用簡單的文件處理模型,請遵循下列步驟:

步驟 1:建立模型

請依照 在 Syntex 中建立模型中的 指示,建立簡單的文件處理模型。 然後繼續進行下列步驟以完成您的模型。

步驟 2:上傳範例檔案以進行分析

  1. 在 [ 模型] 頁面的 [ 新增要分析的檔案 ] 區段中,選取 [ 新增檔案]

    顯示「新增要分析的檔案」區段之新模型頁面的螢幕擷取畫面。

  2. 要分析模型的檔案頁面上,選取 [新增] 以尋找您想要使用的檔案。

    「要分析模型的檔案」頁面顯示 [新增] 按鈕的螢幕擷取畫面。

  3. 從訓練檔案文件庫新增檔案頁面上,選取該檔案,然後選取 [新增]

    「從訓練檔案文件庫新增檔案」頁面的螢幕擷取畫面。

  4. 要分析模型的檔案頁面上,選取 [下一步]

步驟 3:選取模型的擷取器

在 [擷取器詳細數據] 頁面上,您會看到頁面右側的檔區域和左側的 [ 擷取器 ] 面板。 擷取器面板會顯示文件中已識別的擷取器清單。

[擷取器詳細數據] 頁面和 [擷取器] 面板的螢幕快照。

在文件區域中以綠色強調顯示的實體欄位,是模型分析檔案時偵測到的項目。 當您選取要擷取的實體時,反白顯示的欄位會變更為藍色。 如果您稍後決定不包含實體,反白顯示的欄位會變更為灰色。 重點可讓您更輕鬆地查看所選取擷取器的目前狀態。

提示

若要放大或縮小以讀取實體字段,請使用滑鼠的滾輪或檔區域底部的縮放控件。

選取擷取器實體

您可以根據喜好,從文件區域或擷取器面板選取擷取器。

  • 若要從文件區域選取解壓縮器,請選取實體欄位。
  • 若要從 [擷 取器 ] 面板中選取擷取器,請在 [擷 ] 資料行中,選取實體名稱右邊的對應複選框。

當您選取擷取器時,[ 選取擷取器? ] 方塊會顯示在檔案區域中。 此方塊會顯示索引鍵名稱 (為擷取器) 產生的名稱、偵測到的值 (檔) 中該欄位的值、數據行類型,以及選取實體作為擷取器的選項。

擷取器詳細資料頁面上選取擷取器方塊的螢幕擷取畫面。

當模型套用至 SharePoint 文件庫時,金鑰名稱會當做數據行名稱使用。 您可以視需要將金鑰名稱變更為更具描述性。 數據行類型會顯示資訊庫中信息的顯示方式。 您可以變更資料行類型,以顯示信息的顯示方式。 當模型套用於文件庫時,您可以使用欄位格式設定來指定您希望它在文件中的外觀。

繼續選取您想要使用的其他擷取器。 您也可以新增其他檔案來分析此模型設定。

重新命名擷取器

有三種方式可以重新命名擷取器:

  • 在擷取器詳細數據頁面的文件區域中,選取實體字段。 在 [ 選取擷取器?] 方塊的 [ 金鑰名稱] 欄位中,輸入擷取器的新名稱。

  • 在擷取器詳細數據頁面的 [擷取 ] 面板上,選取您要重新命名的擷取器,然後選取 [ 重新命名]

  • 從模型首頁的 [ 擷取器 ] 區段中,選取您要重新命名的擷取器,然後選取 [ 重新命名]

設定頁面範圍以進行處理

針對此模型,您可以指定 來處理檔案的頁面範圍,而不是整個檔案。 在 [ 擷取器] 面板的 [ 頁面範圍 ] 區段中,選取您想要處理的頁面。 根據預設, [頁面範圍] 設定是空的。 如果未提供任何頁面範圍,則會處理整個檔。 如需詳細資訊, 請參閱設定頁面範圍以從特定頁面擷取資訊

偵測文件的語言

針對此模型,您可以偵測文件的語言,並將其解壓縮至數據行。 在 [ 擷取器] 面板的 [ 語言偵測 ] 區段中,切換以開啟語言偵測。 它會顯示偵測到的語言 ISO 程式代碼。

[擷取器] 面板之 [語言偵測] 區段的螢幕快照。

您也可以從 模型的 [模型設定 ] 面板開啟或關閉語言偵測。

步驟 4:套用模型

  • 若要儲存變更並返回模型首頁,請在擷取器面板上,選取 [儲存並離開]

  • 如果您已準備好將模型套用至文件庫,請在文件區域中選取 [下一步]。 在新增至文件庫面板上,選擇您想要新增模型之文件庫,然後選取 [新增]