共用方式為


資料轉換-範例和分割

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

本文說明機器學習 Studio (傳統) 中可用來分割或取樣資料的模組。

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

分割和取樣資料集都是機器學習中的重要工作。 例如,將資料分割成定型集和測試集,以協助您評估維持資料集的模型,是常見的作法。 大型資料的時代也逐漸重視取樣,以確保您的定型資料中有公平的類別散發。 取樣也有助於確保您所處理的資料比所需的還多。

您可以使用機器學習 Studio (傳統) 模組來自訂您分割或取樣資料集的方式:

  • 根據資料中的屬性篩選定型資料。
  • 執行分層取樣,將類別變數平均分割為 n 個群組。
  • 使用自訂比例將來源資料分割為定型和測試資料集。
  • 將正則運算式套用至資料,以篩選出不正確值。

選擇正確的作業:分割或取樣

機器學習 Studio (傳統) 提供兩個封裝工作的模組。 這些模組聽起來很類似,但有不同的用途,並提供互補的功能。 您很可能會在實驗中使用這兩個模組,以取得正確的數量和適當的資料混合。

接下來,我們會藉由查看每個模組常用的工作,來比較 分割資料 模組和資料分割 和範例 模組。

分割資料模組的使用

  • 資料分成兩個群組。 使用「 分割資料 」模組。 此模組只會產生兩個數據分割。 您可以指定分割資料的條件,以及要放入每個子集的資料比例。 分割資料 一律會儲存不符合條件的資料子集。
  • 將標籤值平均配置給資料集。 這兩個模組都支援在指定的資料行上分層依據的選項。 但是,如果您想要建立兩個資料集,且對標籤資料行很感興趣,則 分割資料 模組是快速的解決方案。

使用分割資料模組的範例

假設您從 CSV 檔案匯入了非常大型的資料集。 資料集包含客戶人口統計資料。 您想要為不同國家/地區的客戶建立不同的模型,因此您決定使用資料行的值 Country-Region 來分割資料。 以下是完成這項工作所採取的步驟:

  1. 加入 [ 分割資料 ] 模組,然後指定欄位上 Country-Region 的運算式。 其餘的資料則可在次要輸出上取得。
  2. 加入 分割資料 模組的另一個實例。
  3. 重複步驟1和2。 針對每個反復專案,在運算式中指定不同的國家/地區。

分割資料模組支援數值資料的正則運算式、文字資料和相對運算式

分割資料模組也提供複雜的功能,可讓您用來分割特製化的資料集。 您可以使用此功能來建立建議模型,以及產生預測。

資料分割和範例模組的使用

  • 取樣。 一律使用資料 分割和範例 模組。 此模組提供多個可自訂的取樣方法,包括數個用於分層取樣的選項。
  • 將案例指派給多個群組。 使用 [指派] 折迭或挑選 [分割和取樣] 模組中的迭選項。
  • 只傳回資料的子集。 使用資料 分割和範例 模組。 模組會在主要輸出上提供指定的子集。 其餘的資料則可在次要輸出上取得。
  • 只取得資料集的前2000個數據列。 使用資料 分割和範例 模組。 選取 [ Head ] 選項。 當您要測試新的實驗,並且想要執行工作流程的簡短試用時,這特別有用。

使用資料分割和範例模組的範例

資料 分割和範例 模組可以產生資料的多個資料分割,而不只是兩個數據分割。 同時,它也可以執行各種取樣作業。

例如,假設您只需要取得10% 的資料,同時確保目標屬性的分佈與來源資料中的相同。 以下是完成這項工作所採取的步驟:

  1. 新增資料 分割和範例 模組。
  2. 選擇 取樣 模式,然後指定 10%
  3. 選取 [分層取樣] 選項,然後挑選包含目標屬性的資料行。

如果您不需要保留所有資料,請使用資料 分割和範例 模組。 其餘的資料仍然存在於工作區中,但不需要在實驗過程中進一步處理。

  • 增加範例中罕見案例的數目,或重新平衡目標值的案例:使用 SMOTE 模組。
  • 藉由尋找最能代表資料空間的特徵組合來執行維度縮減:使用 主體元件分析 模組。
  • 根據功能分析和計數來建立精簡功能:使用Learning 搭配計數模組。
  • 只使用指定的資料行來建立視圖或投影;移除或隱藏資料集中的資料行:使用資料集中的選取資料行,並套用SQL 轉換模組。
  • 套用更複雜的資料篩選、群組或轉換:使用Execute R 腳本並套用SQL 轉換模組。

模組清單

此類別包括下列模組:

  • 資料分割和範例:根據取樣建立資料集的多個資料分割。
  • 分割資料:將資料集的資料列分割成兩個不同的集合。

另請參閱