資料轉換-範例和分割
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
本文說明機器學習 Studio (傳統) 中可用來分割或取樣資料的模組。
分割和取樣資料集都是機器學習中的重要工作。 例如,將資料分割成定型集和測試集,以協助您評估維持資料集的模型,是常見的作法。 大型資料的時代也逐漸重視取樣,以確保您的定型資料中有公平的類別散發。 取樣也有助於確保您所處理的資料比所需的還多。
您可以使用機器學習 Studio (傳統) 模組來自訂您分割或取樣資料集的方式:
- 根據資料中的屬性篩選定型資料。
- 執行分層取樣,將類別變數平均分割為 n 個群組。
- 使用自訂比例將來源資料分割為定型和測試資料集。
- 將正則運算式套用至資料,以篩選出不正確值。
選擇正確的作業:分割或取樣
機器學習 Studio (傳統) 提供兩個封裝工作的模組。 這些模組聽起來很類似,但有不同的用途,並提供互補的功能。 您很可能會在實驗中使用這兩個模組,以取得正確的數量和適當的資料混合。
接下來,我們會藉由查看每個模組常用的工作,來比較 分割資料 模組和資料分割 和範例 模組。
分割資料模組的使用
- 將資料分成兩個群組。 使用「 分割資料 」模組。 此模組只會產生兩個數據分割。 您可以指定分割資料的條件,以及要放入每個子集的資料比例。 分割資料 一律會儲存不符合條件的資料子集。
- 將標籤值平均配置給資料集。 這兩個模組都支援在指定的資料行上分層依據的選項。 但是,如果您想要建立兩個資料集,且對標籤資料行很感興趣,則 分割資料 模組是快速的解決方案。
使用分割資料模組的範例
假設您從 CSV 檔案匯入了非常大型的資料集。 資料集包含客戶人口統計資料。 您想要為不同國家/地區的客戶建立不同的模型,因此您決定使用資料行的值 Country-Region
來分割資料。 以下是完成這項工作所採取的步驟:
- 加入 [ 分割資料 ] 模組,然後指定欄位上
Country-Region
的運算式。 其餘的資料則可在次要輸出上取得。 - 加入 分割資料 模組的另一個實例。
- 重複步驟1和2。 針對每個反復專案,在運算式中指定不同的國家/地區。
分割資料模組支援數值資料的正則運算式、文字資料和相對運算式。
分割資料模組也提供複雜的功能,可讓您用來分割特製化的資料集。 您可以使用此功能來建立建議模型,以及產生預測。
資料分割和範例模組的使用
- 取樣。 一律使用資料 分割和範例 模組。 此模組提供多個可自訂的取樣方法,包括數個用於分層取樣的選項。
- 將案例指派給多個群組。 使用 [指派] 折迭或挑選 [分割和取樣] 模組中的折迭選項。
- 只傳回資料的子集。 使用資料 分割和範例 模組。 模組會在主要輸出上提供指定的子集。 其餘的資料則可在次要輸出上取得。
- 只取得資料集的前2000個數據列。 使用資料 分割和範例 模組。 選取 [ Head ] 選項。 當您要測試新的實驗,並且想要執行工作流程的簡短試用時,這特別有用。
使用資料分割和範例模組的範例
資料 分割和範例 模組可以產生資料的多個資料分割,而不只是兩個數據分割。 同時,它也可以執行各種取樣作業。
例如,假設您只需要取得10% 的資料,同時確保目標屬性的分佈與來源資料中的相同。 以下是完成這項工作所採取的步驟:
- 新增資料 分割和範例 模組。
- 選擇 取樣 模式,然後指定 10%。
- 選取 [分層取樣] 選項,然後挑選包含目標屬性的資料行。
如果您不需要保留所有資料,請使用資料 分割和範例 模組。 其餘的資料仍然存在於工作區中,但不需要在實驗過程中進一步處理。
相關工作
- 增加範例中罕見案例的數目,或重新平衡目標值的案例:使用 SMOTE 模組。
- 藉由尋找最能代表資料空間的特徵組合來執行維度縮減:使用 主體元件分析 模組。
- 根據功能分析和計數來建立精簡功能:使用Learning 搭配計數模組。
- 只使用指定的資料行來建立視圖或投影;移除或隱藏資料集中的資料行:使用資料集中的選取資料行,並套用SQL 轉換模組。
- 套用更複雜的資料篩選、群組或轉換:使用Execute R 腳本並套用SQL 轉換模組。
模組清單
此類別包括下列模組: