為模型定型的文字資料加上標籤,以進行自訂情感分析
在訓練模型之前,您需要使用您想要分類的情感來標記文件。 此資料會在下一個訓練模型的步驟中用到,讓您的模型可以從標記的資料中學習。 如果您已經有標籤資料,可以直接將其匯入您的專案中。 請確定您的資料遵循接受的資料格式。
在建立自訂情感分析模型之前,您必須有已標記的資料。 如果您的資料尚未標記,您可以在 Language Studio 中標記資料。 已標記的資料會告知模型如何解讀文字,並且會用於定型和評估。
必要條件
在可以標記資料之前,您需要:
如需詳細資訊,請參閱專案開發生命週期。
資料標記指導方針
在準備資料並建立專案之後,您必須標記資料。 標記您的資料很重要,可讓您的模型知道哪些文件會與您需要的情感相關聯。 當您在 Language Studio 中標記資料 (或匯入已標記的資料) 時,這些標籤會儲存在儲存體容器 (已連線至此專案) 的 JSON 檔案中。
當您在標記資料時,請記住:
一般而言,在資料被正確標記的情況下,被標記的資料越多將能導致越好的結果。
沒有固定數目的標籤可保證您的模型會執行最佳效能。 資料中可能模棱兩可的模型效能,以及已標記資料的品質。
標記您的資料
依照下列步驟標記您的資料:
移至您在 Language Studio 中的專案頁面。
在左側功能表中,選取 [資料標記]。 您可以在儲存體容器中找到所有文件的清單。
提示
您可以使用頂端功能表中的篩選來檢視未標記的檔案,以便開始標記這些資料。 您也可以使用篩選來檢視標記特定情感的文件。
從頂端功能表中的左側,變更為單一檔案檢視,或選取要開始標記的特定檔案。 您可以在左側找到您專案中所有的可用
.txt
檔案清單。 您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。注意
如果您為專案啟用了多種語言,您會在頂端功能表中找到 [語言] 下拉式清單,讓您可選取每個文件的語言。
在右側窗格中,您可將情緒新增至您的專案,以便開始標記資料。
在 [標籤] 樞紐下的右側窗格中,您可以找到專案中的所有情感,以及每個情感的已標記執行個體計數。
在右側窗格的底部區段中,您可以將您正在檢視的目前檔案新增至訓練集或測試集。 根據預設,所有文件都會新增至您的定型集。 深入了解定型和測試集,及其如何用於模型定型和評估。
提示
如果您打算使用自動資料分割,請使用將所有文件指派到定型集的預設選項。
在 [分佈] 樞紐下,您可以檢視定型和測試集之間的分佈。 您有兩個檢視選項:
- 執行個體總計,您可以在其中檢視特定情感的所有已標示執行個體計數。
- 至少有一個標籤的文件 (任何文件只要至少包含一個此情感的已標示執行個體,就會計入)。
在標記時,您的變更將會定期同步,若是尚未儲存完成,將會有警告出現在頁面頂端。 如果您想要手動儲存,請按一下頁面底部的 [儲存標籤] 按鈕。
下一步
在標記資料完成後,您就可以開始定型模型,其將會根據您的資料學習。