在 Microsoft Syntex 中定型非結構化檔處理模型
適用于: ✓ 非結構化檔處理
請遵循 在 Syntex 中建立模型中的 指示,在內容中心建立非結構化檔處理模型。 或者,依照在本機 SharePoint 網站上建立模型 中的指示,在本機網站上建立模型。 然後從本文開始定型您的模型。
建立分類器
分類器是一種模型類型,可用來自動化文件類型的識別和分類。
例如,您可能想要找出新增至文件庫的所有 合約續約 文件,如下列圖示所示。
建立分類器可讓您建立將與該模型相關聯的新 SharePoint 內容類型。
建立分類器時,您必須建立說明以定義模型。 此步驟可讓您記下預期一致地找到此檔案類型的一般資料。
使用文件類型的範例 (「範例檔」) 來「訓練」您的模型,以找出擁有相同內容類型的檔案。
若要建立分類器,您必須:
注意事項
當您的模型使用分類器來識別和分類文件類型時,您也可以選擇從模型所識別的每個檔案中提取特定資訊。 方法是建立要新增至模型的 [擷取器]。 請參閱建立擷取器。
為模型命名
建立模型的第一個步驟是為其命名:
從內容中心選取 [ 新增],然後選取 [模型]。
在 [ 模型建立的選項] 頁面上,選取 [ 教學方法]。
在 [ Teaching 方法:詳細資料] 頁面上,選取 [ 下一步]。
在 [ 使用教學方法建立模型 ] 頁面的 [ 模型名稱 ] 欄位中,輸入模型的名稱。 例如,如果您想要識別合約續約文件,可以將模型命名為 [合約續約]。
選擇 [建立]。 此動作會建立模型的首頁。
當您建立模型時,也會建立新的網站內容類型。 內容類型代表具有共同特徵及共用特定內容的欄或中繼資料屬性集合的文件類別。 透過內容類型資源庫管理 SharePoint 內容類型。 在此範例中,當您建立模型時,會建立新的 合約續約 內容類型。
如果您想要將此模型對應至 SharePoint內容類型庫中現有的企業內容類型,以使用其架構,請選取 [進階設定]。 企業內容類型儲存在 SharePoint 系統管理中心的內容類型中樞中,並與租用戶中的所有網站整合。 請注意,即使您可以使用現有的內容類型來利用其架構來協助識別和分類,您仍然需要定型模型,以從它識別的檔案中擷取資訊。
新增範例檔案
在模型首頁上,新增您的範例檔案,以協助定型模型以識別您的檔案類型。
注意事項
您應將相同檔案用於分類器和擷取器訓練。 您隨時都可以選擇稍後再新增,但通常您會新增一整套範例檔案。 標記一些以訓練您的模型,並測試其餘未標記的項目,以評估模型適用性。
針對訓練集,您會想要使用正面和負面的範例:
- 正面範例:代表檔案類型的文件。 這些包含的字串和資訊永遠存在於這種文件類型。
- 負面範例:任何其他不代表您想要分類之檔的檔。
請務必使用至少五個正面範例,以及至少一個負面範例來訓練您的模型。 您想要建立另一個模型,以在定型程式之後測試您的模型。
若要新增範例檔案:
在模型首頁的 [ 新增範例檔案] 圖格中,選取 [ 新增檔案]。
在 [選取您模型的範例檔案] 頁面上,選取內容中心中 [訓練檔] 文件庫的範例檔案。 如果您尚未將它們上傳至該處,請按一下 [ 上傳 ] 將其複製到訓練檔案庫,以選擇立即上傳。
選取要用來定型模型的範例檔案之後,選取 [ 新增]。
為範例檔案加上標籤
新增範例檔案之後,您必須將其標記為正面或負面範例。
從模型首頁的 [ 分類檔案並執行定型 ] 圖格上,選取 [ 訓練分類器]。 此步驟會顯示顯示範例檔案清單的標籤頁面,且檢視器中會顯示第一個檔案。
在第一個範例檔案頂端的檢視器中,您應該會看到一些文字,詢問該檔案是否為您剛建立的模型範例。 如果是正面範例,請選取 [ 是]。 如果是負數範例,請選取 [否]。
在左邊的 [已標記範例] 清單中,選取您想要做為範例的其他檔案,然後為其標記。
注意事項
至少標記五個正面範例。 您也必須標記至少一個負面範例。
建立說明。
下一個步驟是在 [訓練] 頁面建立說明。 說明可協助模型瞭解如何辨識文件。 例如,合約續約文件始終包含 [要求其他公開揭示] 文字字串。
注意事項
與擷取程式搭配使用時,說明會識別您要從文件中提取的字串。
若要建立說明:
從模型首頁中,選取 [訓練] 索引標籤,以移至 [訓練] 頁面。
在 [訓練] 頁面的 [已訓練檔案] 區段中,您應該會看到您之前已標記的範例檔案清單。 從清單中選取其中一個正向檔案,它會顯示在檢視器中。
在 [說明] 區段中,選取 [新增],然後選取 [空白]。
在 [ 建立說明] 頁面上:
a. 輸入 [名稱] (例如「公開揭示封鎖」)。
B。 選取 [類型]。 針對此範例,請選取 [片語清單],因為您新增的是文字字串。
C。 在 [在這裡輸入] 方塊中,輸入字串。 針對此範例,請新增「要求其他公開揭示」。 如果字串必須區分大小寫,您可以選取 [區分大小寫]。
d. 選取 [儲存]。現在,[內容中心] 會檢查您所建立的說明是否夠完整,以便將剩餘的已標記範例檔案正確識別為正面和負面範例。 訓練完成之後,在 [已訓練檔案] 區段中檢查 [評估] 資料行,以查看結果。 如果您建立的說明足以對應您標示為正面或負面的結果,檔案就會顯示 [符合] 的值。
如果您在已標記檔案上接收到 [不符合],您可能需要建立額外的說明,以提供模型更多資訊來識別文件類型。 如果發生不相符的情況,請選取檔案以取得發生不相符原因的詳細資訊。
一旦訓練擷取器之後,已訓練的擷取器就可以做為說明之用。 在 說明 區段,此部分顯示為 模型參考資料。
測試您的模型
如果您在標記的範例檔案上收到相符專案,您現在可以在模型之前未看過的其餘未標記範例檔案上測試您的模型。 此步驟是選擇性的,但是在使用模型之前評估模型「適合性」或整備程度的實用步驟,方法是在模型之前未看過的檔案上進行測試。
從模型首頁中,選取 [測試] 索引標籤。這會在未標記的範例檔案上執行模型。
在 [測試檔案] 清單中,您的範例檔案會呈現並顯示模型預測其為正面或負面範例。 使用這項資訊可協助您判斷分類器的效能,以找出您的文件。