使用預先建置的模型從 Microsoft Syntex 中的簡單檔擷取資訊
簡單文件處理模型提供彈性且預先定型的解決方案,可從基本結構化檔擷取資訊,包括下列資訊:
機碼/值組 – 請考慮這些像是卷標及其對應的資訊,例如「名稱:Adele Vance」。
選取標記 – 這些是複選框或其他標記,表示檔中的選擇或選取專案。
具名實體 – 這些是特定專案,例如檔文字中提及的人員、地點或組織名稱。
條碼 – 這些是計算機可讀取的數據表示法,可用於檔中的追蹤或識別用途。
不同於其他具有固定架構的預先建置模型,此模型可以識別其他人可能會遺漏的索引鍵,提供自定義模型卷標和定型的寶貴替代方案。 此模型也支援條碼和語言偵測。
檔案類型
簡單檔案處理最適合包含結構化資訊的檔案類型,例如:
Forms – 這些通常具有清楚的字段和標籤,可讓您更輕鬆地擷取索引鍵/值組。
發票 – 通常包含具有數據表和機碼/值組的一致版面配置。
收據 – 類似於發票,其具有可輕鬆擷取的結構化數據。
合約 – 包含定義完善的區段和子句,可以有效地剖析。
銀行對帳單 – 包含適合擷取的數據表和結構化數據。
這些檔受益於光學字元識別 (OCR) 功能,以及用來擷取索引鍵/值組、選取標記、數據表和具名實體的深度學習程式。
注意事項
目前,此模型適用於 .pdf 和圖像檔類型,以及超過 100 種語言。 未來版本將會新增更多支援的檔案類型。
若要使用簡單的文件處理模型,請遵循下列步驟:
- 步驟 1: 建立模型
- 步驟 2: 上傳範例檔案以進行分析
- 步驟 3: 選取模型的擷取器
- 步驟 4: 套用模型
步驟 1:建立模型
請依照 在 Syntex 中建立模型中的 指示,建立簡單的文件處理模型。 然後繼續進行下列步驟以完成您的模型。
步驟 2:上傳範例檔案以進行分析
在 [ 模型] 頁面的 [ 新增要分析的檔案 ] 區段中,選取 [ 新增檔案]。
在要分析模型的檔案頁面上,選取 [新增] 以尋找您想要使用的檔案。
在從訓練檔案文件庫新增檔案頁面上,選取該檔案,然後選取 [新增]。
在要分析模型的檔案頁面上,選取 [下一步]。
步驟 3:選取模型的擷取器
在 [擷取器詳細數據] 頁面上,您會看到頁面右側的檔區域和左側的 [ 擷取器 ] 面板。 擷取器面板會顯示文件中已識別的擷取器清單。
在文件區域中以綠色強調顯示的實體欄位,是模型分析檔案時偵測到的項目。 當您選取要擷取的實體時,反白顯示的欄位會變更為藍色。 如果您稍後決定不包含實體,反白顯示的欄位會變更為灰色。 重點可讓您更輕鬆地查看所選取擷取器的目前狀態。
提示
若要放大或縮小以讀取實體字段,請使用滑鼠的滾輪或檔區域底部的縮放控件。
選取擷取器實體
您可以根據喜好,從文件區域或擷取器面板選取擷取器。
- 若要從文件區域選取解壓縮器,請選取實體欄位。
- 若要從 [擷 取器 ] 面板中選取擷取器,請在 [擷 取 ] 資料行中,選取實體名稱右邊的對應複選框。
當您選取擷取器時,[ 選取擷取器? ] 方塊會顯示在檔案區域中。 此方塊會顯示索引鍵名稱 (為擷取器) 產生的名稱、偵測到的值 (檔) 中該欄位的值、數據行類型,以及選取實體作為擷取器的選項。
當模型套用至 SharePoint 文件庫時,金鑰名稱會當做數據行名稱使用。 您可以視需要將金鑰名稱變更為更具描述性。 數據行類型會顯示資訊庫中信息的顯示方式。 您可以變更資料行類型,以顯示信息的顯示方式。 當模型套用於文件庫時,您可以使用欄位格式設定來指定您希望它在文件中的外觀。
繼續選取您想要使用的其他擷取器。 您也可以新增其他檔案來分析此模型設定。
重新命名擷取器
有三種方式可以重新命名擷取器:
在擷取器詳細數據頁面的文件區域中,選取實體字段。 在 [ 選取擷取器?] 方塊的 [ 金鑰名稱] 欄位中,輸入擷取器的新名稱。
在擷取器詳細數據頁面的 [擷取 器 ] 面板上,選取您要重新命名的擷取器,然後選取 [ 重新命名]。
從模型首頁的 [ 擷取器 ] 區段中,選取您要重新命名的擷取器,然後選取 [ 重新命名]。
設定頁面範圍以進行處理
針對此模型,您可以指定 來處理檔案的頁面範圍,而不是整個檔案。 在 [ 擷取器] 面板的 [ 頁面範圍 ] 區段中,選取您想要處理的頁面。 根據預設, [頁面範圍] 設定是空的。 如果未提供任何頁面範圍,則會處理整個檔。 如需詳細資訊, 請參閱設定頁面範圍以從特定頁面擷取資訊。
偵測文件的語言
針對此模型,您可以偵測文件的語言,並將其解壓縮至數據行。 在 [ 擷取器] 面板的 [ 語言偵測 ] 區段中,切換以開啟語言偵測。 它會顯示偵測到的語言 ISO 程式代碼。
您也可以從 模型的 [模型設定 ] 面板開啟或關閉語言偵測。
步驟 4:套用模型
若要儲存變更並返回模型首頁,請在擷取器面板上,選取 [儲存並離開]。
如果您已準備好將模型套用至文件庫,請在文件區域中選取 [下一步]。 在新增至文件庫面板上,選擇您想要新增模型之文件庫,然後選取 [新增]。