定型自訂具名實體辨識模型
定型是模型從標記資料中學習的流程。 完成定型後,您可以檢視模型的效能,並判斷是否需要改善模型。
若要定型模型,您可以啟動定型作業,而且只有順利完成的作業會建立模型。 定型作業會在七天後到期,這表示您在此時間後無法擷取作業詳細資料。 如果您的定型作業順利完成,且已建立模型,模型將不會受到影響。 您一次只能執行一個定型作業,而且您無法在同一個專案中啟動其他作業。
根據資料集大小和結構描述的複雜度而定,在處理幾個文件時定型時間可以從幾分鐘到高達幾小時的時間。
必要條件
如需詳細資訊,請參閱專案開發生命週期。
資料分割
開始定型程序之前,專案中加上標籤的文件會分成定型集和測試集。 每一種都提供不同的功能。 定型集用於定型模型,這是模型從中學習標記實體的集合,以及哪些範圍的文字會擷取為實體。 測試集是一個盲集,不會在定型期間 (而是只在評估期間) 導入模型。 模型定型成功完成之後,會使用模型從測試中的文件進行預測,並根據這些預測計算評估計量。 建議您確定所有實體都已充分呈現在定型和測試集中。
自訂 NER 支援兩種資料分割方法:
- 從定型資料自動分割測試集:系統會根據選擇的百分比,在定型與測試集之間分割已標示資料。 建議的百分比分割是 80% 用於定型,20% 用於測試。
注意
如果您選擇 [從定型資料自動分割測試集] 選項,則只會根據提供的百分比來分割向定型集指派的資料。
- 使用手動分割定型和測試資料:此方法可讓使用者定義哪些具有標籤的文件應該屬於哪個集合。 只有在您已在資料標記期間將文件新增至測試集時,才會啟用此步驟。
定型模型
若要從 Language Studio 內開始定型模型:
從左側功能表中,選取 [定型工作]。
從頂端功能表中選取 [開始定型作業]。
選取 [定型新模型],然後在文字方塊中輸入模型名稱。 您也可以藉由選取此選項來覆寫現有的模型,然後從下拉式功能表中選擇您想要覆寫的模型。 覆寫定型的模型是無法復原的,但在您部署新模型之前,不會影響已部署的模型。
選取資料分割方法。 您可以選擇 [從定型資料自動分割測試集],其中系統會根據指定的百分比,在定型集與測試集之間分割標記的資料。 或者,您可以使用手動分割定型和測試資料,只有在資料標記期間已將文件新增至測試集時,才會啟用此選項。 如需資料分割的相關資訊,請參閱如何定型模型。
選取 [定型] 按鈕。
如果您從清單中選取 [定型作業識別碼],則會顯示側邊窗格,您可以在其中檢查此作業的 [定型進度]、[作業狀態] 和其他詳細資料。
注意
- 只有成功完成的定型作業才會產生模型。
- 定型可能需要幾分鐘到數小時的時間,以標記的資料大小而定。
- 您一次只能執行一個定型作業。 除非執行中的作業完成,否則無法在同一個專案內啟動其他定型作業。
取消定型作業
若要從 Language Studio 內取消定型作業,請移至 [定型作業] 頁面。 選取您想要取消的定型作業,然後選取頂端功能表中的 [取消]。
下一步
完成定型後,您可以檢視模型效能,並視需要選擇性地改善模型。 在對模型感到滿意之後,您就可以將其部署並用於從文字中擷取實體。