分割資料
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
將資料集的資料列分割成兩組獨特資料
類別: 資料轉換/取樣和分割
模組概觀
本主題描述如何使用機器學習 Studio (傳統) 中的分割資料模組,將資料集分成兩個不同的集合。
當您需要將資料分隔成定型集和測試集時,此模組特別有用。 您也可以自訂資料的分割方式。 某些選項支援隨機的資料;其他則是針對特定資料類型或模型類型而量身訂做。
如何設定分割資料
提示
選擇分割模式之前,請先閱讀所有選項,以決定所需的分割類型。 如果您變更分割模式,則可以重設所有其他選項。
將 [ 分割資料 ] 模組新增至您在 studio 中的實驗。 您可以在 [ 資料轉換] 下的 [ 範例和分割 ] 分類中找到此模組。
分割模式:根據您擁有的資料類型以及您要如何分割,選擇下列其中一個模式。 每個分割模式的選項各有不同。 如需詳細的指示和範例,請按一下下列主題。
分割資料列:如果您只想要將資料分割成兩個部分,請使用此選項。 您可以指定要放入每個分割中的資料百分比,但根據預設,資料會分割為50-50。
您也可以將每個群組中所選取的資料列隨機化,並使用分層取樣。 在分層取樣中,您必須選取一個資料行的資料,這些資料是您想要將其值平均地分配給兩個結果資料集的資料。
推薦分割:如果您要準備要在推薦系統中使用的資料,請一律選擇這個選項。 它可協助您將資料集分割成定型和測試群組,同時確保重要的值(例如使用者-專案配對或評等)會在群組之間平均分配。
規則運算式分割:當您想要透過測試單一資料行的值來分割資料集時,請選擇此選項。
例如,如果您要分析情感,您可以在文字欄位中檢查特定產品名稱是否存在,然後將資料集分割成具有目標產品名稱的資料列,而不是。
相對運算式分割:每當您想要將條件套用至數字資料行時,請使用此選項。 此數目可以是日期/時間欄位、包含年齡或金額的資料行,或甚至是百分比。 例如,您可能會想要根據專案的成本來分割資料集、依年齡範圍將人員分組,或依行事曆日期來分隔資料。
規格需求
分割資料 一次最多可以建立兩個資料集,而且這些集合必須是專屬的。
因此,如果您有多個條件和輸出的複雜分割,則您可能需要將多個 分割資料 模組串連在一起。
或者,您也可以使用 CASE 語句和Apply SQL 轉換模組。
此模組不會刪除資料或將資料從資料集移除;它只會將在模組的第一個和第二個輸出中指定的資料分割。
分割推薦系統的資料需要一些額外的需求。 一般而言,資料集只能由使用者-專案配對或使用者-專案-評等三合一組成。 因此, 分割資料 模組無法在具有三個以上資料行的資料集上運作,以避免與功能類型資料混淆。 如果您的資料集包含太多資料行,您可能會收到此錯誤:
錯誤0022:輸入資料集中選取的資料行數目不等於 x
因應措施是,您可以使用 [ 選取資料集中的資料行 ] 來移除部分資料行,然後使用 [ 加入資料行] 稍後再加入資料行。 或者,如果您的資料集有多個您想要在模型中使用的功能,請使用不同的選項來分割資料集,並使用 定型模型 來定型模型,而不是 定型 Matchbox 推薦。
範例
如需如何使用「 分割資料 」模組的範例,請參閱 Azure AI 資源庫:
- 二元分類的交叉驗證:成人資料集:會套用20% 的取樣率來建立較小的隨機取樣資料集。 (原始人口普查資料集有超過 30,000 個資料列,定型資料集有大約 6500 的資料列)。 此資料集會清除遺漏值,然後傳遞給五個不同的模型進行定型和交叉驗證。
技術說明
下列需求適用于 分割資料的所有用途:
- 輸入資料集必須包含至少兩個數據列,否則會引發錯誤。
- 如果您使用此選項來指定需要的資料列數,指定的數字必須是正整數,而且數字必須小於資料集的資料列總數。
- 如果您指定的數字是百分比,或使用包含 "%" 字元的字串,則以百分比解讀此值。 所有的百分比值必須在範圍 (0, 100) 內,不含 0 和 100。
- 如果您指定的數字或百分比是小於 1 的浮點數,而且不使用百分比符號 (%),則以比例值解讀數字。
- 如果您使用分層分割的選項,則可以藉由選取分層資料行,以子群組進一步分割輸出資料集。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 分割的資料集 |
模組參數
名稱 | 類型 | 範圍 | 選用 | 描述 | 預設 |
---|---|---|---|---|---|
分割模式 | 分割模式 | 分割資料列、推薦分割、正則運算式或相對運算式 | 必要 | 分割資料列 | 選擇分割資料集的方法 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果 dataset1 | 資料表 | 包含選定資料列的資料集 |
結果 dataset2 | 資料表 | 包含所有其他資料列的資料集 |