如何準備自訂情感分析的資料
若要建立自訂情感分析模型,您將需要品質資料來進行定型。 本文涵蓋應該如何選取和準備資料,以及定義結構描述。 定義架構是專案開發生命週期的第一步,用於定義模型在執行階段分類文字所需的類別。
選取資料
您用來定型模型的資料品質會大幅影響模型效能。
使用實際資料來反映您網域的問題空間,以有效地定型模型。 您可以使用綜合資料來加速初始模型定型程序,但綜合資料可能與您的實際資料不同,並讓您的模型在使用時效率不佳。
請盡可能地平衡資料散發,而不要偏離實際散發過多。
盡可能使用多種資料,以避免過度學習您的模型。 若定型資料中多樣性過少,可能導致您的模型學習到錯誤關聯性,而這些關聯性在實際的資料中可能不存在。
請避免資料中出現重複的文件。 重複資料會對定型流程、模型計量和模型效能產生負面影響。
請考慮資料的來源。 如果您要從某個人、部門或部分案例中收集資料,您可能會遺漏多樣性,這對您的模型而言可能很重要。
注意
若您的文件採用多種語言,請在建立專案期間選取 [多語言] 選項,並將 [語言] 選項設為大部分文件所使用的語言。
資料準備
您必須將定型資料上傳至儲存體帳戶中的 Blob 容器,才能建立自訂情感分析專案。 您可以直接從 Azure 或使用 Azure 儲存體總管工具來建立和上傳訓練文件。 使用 Azure 儲存體總管工具可讓您快速上傳更多資料。
您只能使用 .txt
。 自訂文字的文件。 如果您的資料是其他格式,可以使用 CLUtils 剖析命令來變更您的檔案格式。
測試集
定義測試集時,請務必包括定型集中沒有的範例文件。 定義測試集是計算模型效能的重要步驟。 此外,請確定測試集包括代表專案中所有已使用類別的文件。
下一步
若尚未執行,則請建立自訂情感分析專案。 如果這是您第一次使用自訂情感分析,請考慮遵循快速入門建立範例專案。 您也可以查看專案需求,以取得建立專案所需專案的詳細資料。