資料轉換 - 操作
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
本文說明機器學習 Studio (傳統) 中可用於基本資料操作的模組。
機器學習 Studio (傳統) 支援機器學習專用的工作,例如正規化或特徵選取。 此類別中的模組適用于更一般的工作。
資料操作工作
此類別中的模組是為了支援可能需要在機器學習 Studio (傳統) 中執行的核心資料管理工作。 下列工作是核心資料管理工作的範例:
- 結合兩個資料集(藉由使用聯結),或合併資料行或資料列。
- 建立要用於分組資料的新類別。
- 修改資料行標題、變更資料行資料類型,或將資料行標示為特徵或標籤。
- 檢查是否有遺漏的值,然後將其取代為適當的值。
相關工作
- 執行取樣或將資料集分割成定型集和測試集:使用 資料轉換-範例和分割 模組。
- 調整數位、標準化資料,或將數值放入 bin 中:使用 資料轉換-調整規模並減少 模組。
- 針對數值資料欄位執行計算,或產生常用的統計資料:使用 統計函數中的工具。
範例
如需如何在機器學習實驗中使用複雜資料的範例,請參閱 Azure AI 資源庫中的下列範例:
- 資料處理和分析:示範主要工具和程式。
- Breast 癌症偵測:說明如何分割資料集,然後將特殊處理套用到每個資料分割。
此類別中的模組
「 資料轉換-操作 」類別包含下列模組:
- 新增資料行:將一組資料行從一個資料集加入至另一個資料集。
- 加入資料列:將一組資料列從輸入資料集附加至另一個資料集的結尾。
- 套用SQL 轉換:在輸入資料集上執行 SQLite 查詢來轉換資料。
- 清除遺漏的資料:指定如何處理資料集遺漏的值。 此模組會取代已被取代的遺漏值清除程式。
- 轉換成指標值:將資料行中的類別值轉換成指標值。
- 編輯中繼資料:編輯與資料集中的資料行相關聯的中繼資料。
- 群組類別值:將多個類別的資料群組成新的分類。
- 聯結資料:聯結兩個資料集。
- 移除重複的資料列:從資料集移除重複的資料列。
- 選取資料集中的資料行:選取要包含在資料集中的資料行,或從作業中的資料集排除。
- 選取資料行轉換:建立轉換,以選取與指定的資料集相同的資料行子集。
- SMOTE:使用綜合少數超取樣來增加資料集中的低發生範例數目。