在 Azure Machine Learning 設計工具中轉換資料
在本文中,您會了解如何在 Azure Machine Learning 設計工具中轉換和儲存資料集,以便為機器學習服務準備資料。
您將會使用範例 Adult Census Income Binary Classification (成人人口普查收入二元分類) 資料集來準備兩個資料集:其中一個資料集僅包含美國的成人人口普查資訊,另一個資料集則包含非美國成人的人口普查資訊。
在本文中,您將學會如何:
- 轉換資料集以準備進行定型。
- 將產生的資料集匯出到資料存放區。
- 檢視結果。
本操作指南是如何重新定型設計工具模型一文章先決條件。 在本文中,您將會了解如何使用轉換後的資料集,以搭配管線參數來定型多個模型。
重要
如果您未注意這份文件中提及的圖形元素,例如工作室或設計工具中的按鈕,可能是您沒有工作區的正確權限層級。 請洽詢您的 Azure 訂用帳戶管理員,以確認您已獲得授與正確的存取層級。 如需詳細資訊,請參閱管理使用者與角色。
轉換資料集
在本節中,您將會了解如何匯入範例資料集,並將資料分成美國和非美國資料集。 如需如何將資料匯入設計工具的詳細資訊,請參閱如何匯入資料。
匯入資料
使用下列步驟匯入範例資料集:
登入 Azure Machine Learning 工作室,然後選取您想要使用的工作區
前往設計工具。 選取 [使用傳統預建元件建立新管線] 以建立新的管線
在管線畫布左側的 [元件] 索引標籤中,展開 [樣本資料] 節點
將 Adult Census Income Binary classification (成人人口普查收入二元分類) 資料集拖放到畫布
以滑鼠右鍵選取 [成人人口普查收入] 資料集元件,然後選取 [預覽資料]
使用資料預覽視窗來探索資料集。 請特別注意 "native-country" 資料行的值
分割資料
在本節中,您會使用分割資料元件來識別和分割在 "native-country" 資料行中包含 "United-States" 的資料列
在畫布左側的元件索引標籤中,展開 [資料轉換] 區段,然後尋找 [分割資料] 元件
將 [分割資料] 元件拖曳到畫布上,然後將元件放在資料集元件的下方
將資料集元件連線到分割資料元件
選取 [分割資料] 元件,以開啟 [分割資料] 窗格
在 [參數] 圖示的畫布右側,將 [分割模式] 設定為 [規則運算式]
輸入規則運算式:
\"native-country" United-States
規則運算式模式會測試單一資料行的值。 如需分割資料元件的詳細資訊,請參閱相關的演算法元件參考頁面
您的管線應該會類似於下列螢幕擷取畫面:
儲存資料集
現在您已將管線設定為分割資料,您必須指定保存資料集的位置。 針對此範例,請使用匯出資料元件來將資料集儲存到資料存放區。 如需資料存放區的詳細資訊,請參閱連線至 Azure 儲存體服務。
在畫布左側的元件選擇區中,展開 [資料輸入和輸出] 區段,然後尋找 [匯出資料] 元件
將兩個匯出資料元件拖放到分割資料元件下方
將每個分割資料元件的輸出連接埠連線到不同匯出資料元件
您的管線應該會類似於:
選取已連線至 [分割資料] 元件的最左邊連接埠的 [匯出資料] 元件,以開啟 [匯出資料] 設定窗格
對於 [分割資料] 元件,輸出連接埠順序很重要。 第一個輸出連接埠包含規則運算式為 true 的資料列。 在本案例中,第一個連接埠包含以美國為基礎的收入資料列,且第二個連接埠則包含不是以美國為基礎的收入資料列
在畫布右側的元件詳細資料窗格中,設定下列選項:
資料存放區類型:Azure Blob 儲存體
資料存放區:選取現有資料存放區,或選取 [新增資料存放區] 建立新的資料存放區
路徑:
/data/us-income
檔案格式:csv
注意
本文假設您可存取向目前 Azure Machine Learning 工作區註冊的資料存放區。 如需資料存放區設定指示,請參閱連線至 Azure 儲存體服務
如果您沒有資料存放區,則可立即建立。 基於範例目的,本文會將資料集儲存到與工作區建立關聯的預設 Blob 儲存體帳戶。 其會將資料集儲存到名為
data
新資料夾中的azureml
容器選取已連線至 [分割資料] 元件的最右邊連接埠的 [匯出資料] 元件,以開啟 [匯出資料] 設定窗格
在畫布右側的元件詳細資料窗格中,設定下列選項:
資料存放區類型:Azure Blob 儲存體
資料存放區:選取先前的資料存放區
路徑:
/data/non-us-income
檔案格式:csv
驗證連線至 [分割資料] 左側連接埠的 [匯出資料] 元件具備 [路徑]
/data/us-income
驗證連線至右側連接埠的 [匯出資料] 元件具備 [路徑]
/data/non-us-income
管線和設定應會如下:
提交作業
現在您已將管道設為分割及匯出資料,請提交管道作業。
選取畫布頂端的 [設定和提交]
在 [設定管線作業] 的 [基本資料] 窗格中,選取 [新建] 選項,以建立實驗
實驗會依照邏輯將相關的管道作業分組。 若您在未來執行此管線,則建議針對記錄和追蹤使用相同的實驗
提供描述性的實驗名稱,例如 "split-census-data"
選取 [檢閱 + 提交],然後選取 [提交]
檢視結果
管線執行完成之後,您可以瀏覽至 Azure 入口網站 Blob 儲存體,以檢視您的結果。 您也可以檢視分割資料元件的中繼結果來確認資料已正確分割。
選取 [分割資料] 元件
在畫布右側的元件詳細資料窗格中,選取 [輸出 + 記錄] 索引標籤
選取 [顯示資料輸出] 下拉式清單
選取 [結果 dataset1] 旁邊的視覺化圖示
驗證 "native-country" 資料行只包含 "United-States" 值
選取位於 [結果 dataset2] 旁邊的視覺化圖示
驗證 "native-country" 資料行不包含 "United-States" 值
清除資源
若要繼續進行此使用 Azure Machine Learning 設計工具重新定型模型操作的第二部分,請略過本節。
重要
您可以使用您所建立的資源,作為其他 Azure Machine Learning 教學課程和操作說明文章的先決條件。
刪除所有內容
如果您不打算使用所建立的任何資源,請刪除整個資源群組,以免產生任何費用。
在 Azure 入口網站中,於視窗左側選取 [資源群組]。
在清單中,選取您所建立的資源群組。
選取 [刪除資源群組]。
刪除資源群組同時會刪除您在設計工具中建立的所有資源。
刪除個別資產
在建立實驗的設計工具中,藉由選取個別資產,再選取 [刪除] 按鈕,即可刪除個別資產。
您在這裡建立的計算目標會在不使用時自動調整為零個節點。 如此可將費用降至最低。 如果您想要刪除計算目標,請採取下列步驟:
您可以選取每個資料集並選取 [取消註冊],從工作區中將資料集取消註冊。
若要刪除資料集,請使用 Azure 入口網站或 Azure 儲存體總管移至儲存體帳戶,並手動刪除這些資產。
下一步
在本文中,您將會了解如何轉換資料集,並將其儲存至註冊的資料存放區。
繼續前往本操作指南系列的下一個部分:使用 Azure Machine Learning 設計工具重新定型模型,以使用轉換後的資料集和管線參數來定型機器學習模型。