資料轉換-範例和分割

發行項
05/06/2019

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

請參閱將機器學習專案從 ML 工作室 (傳統) 移至 Azure Machine Learning 的相關資訊。
深入瞭解Azure Machine Learning。

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

本文說明機器學習 Studio (傳統) 中可用來分割或取樣資料的模組。

注意

適用于：僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

分割和取樣資料集都是機器學習中的重要工作。例如，將資料分割成定型集和測試集，以協助您評估維持資料集的模型，是常見的作法。大型資料的時代也逐漸重視取樣，以確保您的定型資料中有公平的類別散發。取樣也有助於確保您所處理的資料比所需的還多。

您可以使用機器學習 Studio (傳統) 模組來自訂您分割或取樣資料集的方式：

根據資料中的屬性篩選定型資料。
執行分層取樣，將類別變數平均分割為 n 個群組。
使用自訂比例將來源資料分割為定型和測試資料集。
將正則運算式套用至資料，以篩選出不正確值。

選擇正確的作業：分割或取樣

機器學習 Studio (傳統) 提供兩個封裝工作的模組。這些模組聽起來很類似，但有不同的用途，並提供互補的功能。您很可能會在實驗中使用這兩個模組，以取得正確的數量和適當的資料混合。

接下來，我們會藉由查看每個模組常用的工作，來比較 分割資料 模組和資料分割 和範例 模組。

分割資料模組的使用

將資料分成兩個群組。使用「分割資料」模組。此模組只會產生兩個數據分割。您可以指定分割資料的條件，以及要放入每個子集的資料比例。分割資料一律會儲存不符合條件的資料子集。
將標籤值平均配置給資料集。這兩個模組都支援在指定的資料行上分層依據的選項。但是，如果您想要建立兩個資料集，且對標籤資料行很感興趣，則 分割資料 模組是快速的解決方案。

使用分割資料模組的範例

假設您從 CSV 檔案匯入了非常大型的資料集。資料集包含客戶人口統計資料。您想要為不同國家/地區的客戶建立不同的模型，因此您決定使用資料行的值 Country-Region 來分割資料。以下是完成這項工作所採取的步驟：

加入 [ 分割資料 ] 模組，然後指定欄位上 Country-Region 的運算式。其餘的資料則可在次要輸出上取得。
加入分割資料模組的另一個實例。
重複步驟1和2。針對每個反復專案，在運算式中指定不同的國家/地區。

分割資料模組支援數值資料的正則運算式、文字資料和相對運算式。

分割資料模組也提供複雜的功能，可讓您用來分割特製化的資料集。您可以使用此功能來建立建議模型，以及產生預測。

資料分割和範例模組的使用

取樣。一律使用資料分割和範例模組。此模組提供多個可自訂的取樣方法，包括數個用於分層取樣的選項。
將案例指派給多個群組。使用 [指派] 折迭或挑選 [分割和取樣] 模組中的折迭選項。
只傳回資料的子集。使用資料分割和範例模組。模組會在主要輸出上提供指定的子集。其餘的資料則可在次要輸出上取得。
只取得資料集的前2000個數據列。使用資料分割和範例模組。選取 [ Head ] 選項。當您要測試新的實驗，並且想要執行工作流程的簡短試用時，這特別有用。

使用資料分割和範例模組的範例

資料分割和範例模組可以產生資料的多個資料分割，而不只是兩個數據分割。同時，它也可以執行各種取樣作業。

例如，假設您只需要取得10% 的資料，同時確保目標屬性的分佈與來源資料中的相同。以下是完成這項工作所採取的步驟：

新增資料分割和範例模組。
選擇取樣模式，然後指定 10%。
選取 [分層取樣] 選項，然後挑選包含目標屬性的資料行。

如果您不需要保留所有資料，請使用資料分割和範例模組。其餘的資料仍然存在於工作區中，但不需要在實驗過程中進一步處理。

增加範例中罕見案例的數目，或重新平衡目標值的案例：使用 SMOTE 模組。
藉由尋找最能代表資料空間的特徵組合來執行維度縮減：使用主體元件分析模組。
根據功能分析和計數來建立精簡功能：使用Learning 搭配計數模組。
只使用指定的資料行來建立視圖或投影;移除或隱藏資料集中的資料行：使用資料集中的選取資料行，並套用SQL 轉換模組。
套用更複雜的資料篩選、群組或轉換：使用Execute R 腳本並套用SQL 轉換模組。

模組清單

此類別包括下列模組：

資料分割和範例：根據取樣建立資料集的多個資料分割。
分割資料：將資料集的資料列分割成兩個不同的集合。

共用方式為

資料轉換-範例和分割

選擇正確的作業：分割或取樣

分割資料模組的使用

使用分割資料模組的範例

資料分割和範例模組的使用

使用資料分割和範例模組的範例

模組清單

另請參閱

其他資源

共用方式為

資料轉換-範例和分割

選擇正確的作業：分割或取樣

分割資料模組的使用

使用分割資料模組的範例

資料分割和範例模組的使用

使用資料分割和範例模組的範例

相關工作

模組清單

另請參閱

其他資源