在 Microsoft Syntex 中建立擷取器
適用于: ✓ 非結構化檔處理
在建立分類器模型以自動識別和分類特定文件類型之前或之後,您可以選擇將擷取器新增至模型,以從這些文件中提取特定資訊。 例如,您可能會想要模型不僅能識別新增至文件庫的所有續約文件,還能在文件庫中將每份文件的服務開始日期顯示為欄值。
您必須為要擷取之文件的每個實體建立擷取器。 在我們的範例中,我們想要擷取模型所識別之每個合約續約檔的服務開始日期。 我們希望能夠在文件庫中看到所有 合約續約 檔的檢視,其中有一個資料行會顯示每份檔 的服務開始 日期值。
注意事項
若要建立擷取器,您可以使用先前上傳來訓練分類程式的同一個檔案。
為您的擷取器命名
從模型首頁的 [ 建立和定型擷取器 ] 圖格中,選取 [ 定型擷取器]。
在 [新增實體擷取器] 畫面的 [新擷取器名稱] 欄位中輸入您的擷取器名稱。 例如,如果您想要從每個續約文件擷取服務開始日期,請將它命名為服務開始日期。 您也可以選擇重複使用之前建立的欄位 (例如受管理的中繼資料欄)。
根據預設,資料行類型為 單行文字。 如果您想要變更資料行類型,請選取 [進階設定資料> 行類型],然後選取您要使用的類型。
注意事項
對於資料行類型為 單行文字的擷取器,字元限制上限為 255。 您選取超過限制的任何字元都會被截斷。 若要選取大於 255 個字元,請在建立擷取器時選擇 多行文字 資料行類型。
根據預設, 會建立多行文字資料行 ,並限制可新增的文字數量。 在此情況下,擷取的文字可能會被截斷。 如果發生這種情況,可以使用資料行設定 [允許文件庫中的無限制長度 ] 來移除限制。
完成後,請選取 [建立]。
新增標籤
下一個步驟是在範例訓練檔案中,將您要擷取的實體加上標籤。
建立擷取器會開啟 [擷取] 頁面。 您會在這裡看到範例檔案清單,而清單上的第一個檔案會顯示在檢視器中。
從檢視器中,選取您要從檔案中擷取的資料。 例如,如果您想要擷取 開始服務日期,請在 2022 年 10 月 14 日) (第 一個檔案中反白顯示日期值。 然後選取 [ 儲存]。 您應該會在 [標籤] 欄下的 [標籤範例清單] 中看到檔案的值。
選 取 [下一個檔案 ] 以自動儲存,並在檢視器中開啟清單中的下一個檔案。 或者,選取 [儲存],然後從 [標籤範例] 清單中選取另一個檔案。
在檢視器中,重複步驟 1 和 2,直到您將標籤儲存在所有五個檔案中。
當您在五個檔案上加上標籤後,系統會顯示通知橫幅,通知您移至 [訓練]。 您可以選擇將更多文件加上標籤,或繼續前往訓練。
使用尋找來搜尋您的檔案
您可以使用尋找功能來搜尋您要加標籤文件中的實體。
如果您要搜尋大型檔,或檔中有多個實體實例,[尋找] 功能就很有用。 如果您發現多個執行個體,則可以在搜尋結果中選取您需要的一項,以移至檢視器中的該位置,以為其加標籤。
新增說明
在我們的範例中,我們將建立說明,提供有關實體格式本身的提示,以及它在範例檔中可能具有的變化。 例如,日期值可以是數種不同的格式,例如:
- 10/14/2022
- 2022 年 10 月 14 日
- 2022 年 10 月 14 日星期一
若要協助識別 服務開始日期,您可以建立模式說明。
- 在 [說明] 區段中,選取 [新增],然後輸入名稱 (例如 [日期])。
- 在 [類型] 中,選取 [模式清單]。
- 對於值,請提供其在範例檔案中顯示的日期變化。 例如,如果日期格式顯示為 0/00/0000,則輸入出現在文件中的所有變化,例如:
- 0/0/0000
- 0/00/0000
- 00/0/0000
- 00/00/0000
- 選取 [儲存]。
注意事項
如需深入了解說明類型,請參閱說明類型。
使用說明程式庫
若要建立日期等專案的說明,使用 說明程式庫 比手動輸入所有變化更容易。 說明文件庫是一組內建的片語和模式說明。 程式庫會嘗試提供一般片語或模式清單的所有格式,例如日期、電話號碼、郵遞區號等等。
針對 服務開始日期 範例,在說明連結 庫中使用 Date 的預先建置說明會更有效率:
在 [說明] 區段中,選取 [新增],然後選取 [從說明文件庫]。
從說明文件庫,選取 [日期]。 您可以檢視已辨識的所有日期變化。
選取 [新增]。
在 [建立說明] 頁面上,說明文件庫中的 [日期] 資訊會自動填入欄位。 選取 [儲存]。
訓練模型
儲存您的說明會開始定型。 如果您的模型有足夠的資訊可從已加上標籤的範例檔案中擷取資料,您會看到每個標記為 Match的檔案。
如果說明沒有足夠的資訊可尋找您想要擷取的資料,則每個檔案都會標示為 不相符。 您可以選取 不相符的 檔案,以查看為何不相符的詳細資訊。
新增其他說明
通常不相符表示我們提供的說明未提供足夠的資訊來擷取服務開始日期值,以符合標記的檔案。 您可能需要編輯它,或新增另一個說明。
在我們的範例中,請注意,文字字串開始服務日期始終位於實際值之前。 若要協助識別服務開始日期,您必須建立片語說明。
在 [說明] 區段中,選取 [新增],然後輸入名稱 (例如 [前置詞字串])。
在 [類型] 中,選取 [片語清單]。
使用 [服務開始日期] 做為值。
選取 [儲存]。
再次訓練模型
儲存說明之後即會再次開始訓練,這次使用範例中的兩個說明。 如果您的模型有足夠的資訊可以從標籤的範例檔案擷取資料,您會看到每個標示為 [相符] 的檔案。
如果您在標籤的檔案上再次收到 [不相符],您可能需要建立其他說明,以提供模型以取得更多資訊來識別文件類型,或考慮變更現有的文件類型。
測試您的模型
如果您在標籤的範例檔案上收到 [相符],您現在可以在剩餘未標籤的範例檔案上測試模型。 此步驟是選擇性的,但很適合用來評估模型的「適用性」或在使用模型前整備程度,方法是在模型之前未看過的檔案上進行測試。
從模型首頁,選取 [ 測試] 索引 標籤。這會在未標記的範例檔案上執行模型。
如果模型可以擷取所需的資訊,就會在 [測試檔案] 清單中顯示您的範例檔案。 使用這項資訊可協助您判斷分類器識別文件的效能。
進一步精簡擷取器
如果您有重複的實體,而且只想要擷取一個值或特定數目的值,您可以設定規則來指定要如何處理它。 若要新增規則以精簡擷取的資訊,請遵循下列步驟:
從模型首頁的 [ 實體擷取器 ] 區段中,選取您想要精簡的擷取器,然後選取 [精簡擷取的資訊]。
在 [ 精簡擷取的資訊 ] 頁面上,選取下列其中一個規則:
- 保留一或多個第一個值
- 保留最後一個或多個值
- 移除重複的值
- 保留一或多行前幾行
- 保留最後一行或多行
輸入您想要使用的行數或值,然後選取 [精簡]。
如果您想要藉由變更行數或值來編輯規則,請選取您要編輯的擷取器、選取 [精簡擷取的資訊]、變更數位,然後選取 [ 儲存]。
當您測試擷取器時,您將能夠在 [測試檔案] 清單的 [精簡搜尋結果] 資料行中看到精簡。
如果您想要刪除擷取器上的精簡處理規則,請選取要從中移除規則的擷取器,選取 [精簡擷取的資訊],然後選取 [ 刪除]。