共用方式為


在 Azure Machine Learning 設計工具中轉換資料

在本文中,您會了解如何在 Azure Machine Learning 設計工具中轉換和儲存資料集,以便為機器學習服務準備資料。

您將會使用範例 Adult Census Income Binary Classification (成人人口普查收入二元分類) 資料集來準備兩個資料集:其中一個資料集僅包含美國的成人人口普查資訊,另一個資料集則包含非美國成人的人口普查資訊。

在本文中,您將學會如何:

  1. 轉換資料集以準備進行定型。
  2. 將產生的資料集匯出到資料存放區。
  3. 檢視結果。

本操作指南是如何重新定型設計工具模型一文章先決條件。 在本文中,您將會了解如何使用轉換後的資料集,以搭配管線參數來定型多個模型。

重要

如果您未注意這份文件中提及的圖形元素,例如工作室或設計工具中的按鈕,可能是您沒有工作區的正確權限層級。 請洽詢您的 Azure 訂用帳戶管理員,以確認您已獲得授與正確的存取層級。 如需詳細資訊,請參閱管理使用者與角色

轉換資料集

在本節中,您將會了解如何匯入範例資料集,並將資料分成美國和非美國資料集。 如需如何將資料匯入設計工具的詳細資訊,請參閱如何匯入資料

匯入資料

使用下列步驟匯入範例資料集:

  1. 登入 Azure Machine Learning 工作室,然後選取您想要使用的工作區

  2. 前往設計工具。 選取 [使用傳統預建元件建立新管線] 以建立新的管線

  3. 在管線畫布左側的 [元件] 索引標籤中,展開 [樣本資料] 節點

  4. Adult Census Income Binary classification (成人人口普查收入二元分類) 資料集拖放到畫布

  5. 以滑鼠右鍵選取 [成人人口普查收入] 資料集元件,然後選取 [預覽資料]

  6. 使用資料預覽視窗來探索資料集。 請特別注意 "native-country" 資料行的值

分割資料

在本節中,您會使用分割資料元件來識別和分割在 "native-country" 資料行中包含 "United-States" 的資料列

  1. 在畫布左側的元件索引標籤中,展開 [資料轉換] 區段,然後尋找 [分割資料] 元件

  2. 將 [分割資料] 元件拖曳到畫布上,然後將元件放在資料集元件的下方

  3. 將資料集元件連線到分割資料元件

  4. 選取 [分割資料] 元件,以開啟 [分割資料] 窗格

  5. 在 [參數] 圖示的畫布右側,將 [分割模式] 設定為 [規則運算式]

  6. 輸入規則運算式\"native-country" United-States

    規則運算式模式會測試單一資料行的值。 如需分割資料元件的詳細資訊,請參閱相關的演算法元件參考頁面

您的管線應該會類似於下列螢幕擷取畫面:

顯示如何設定管道和分割資料元件的螢幕擷取畫面

儲存資料集

現在您已將管線設定為分割資料,您必須指定保存資料集的位置。 針對此範例,請使用匯出資料元件來將資料集儲存到資料存放區。 如需資料存放區的詳細資訊,請參閱連線至 Azure 儲存體服務

  1. 在畫布左側的元件選擇區中,展開 [資料輸入和輸出] 區段,然後尋找 [匯出資料] 元件

  2. 將兩個匯出資料元件拖放到分割資料元件下方

  3. 將每個分割資料元件的輸出連接埠連線到不同匯出資料元件

    您的管線應該會類似於:

    顯示如何連線匯出資料元件的螢幕擷取畫面

  4. 選取已連線至 [分割資料] 元件的最左邊連接埠的 [匯出資料] 元件,以開啟 [匯出資料] 設定窗格

    對於 [分割資料] 元件,輸出連接埠順序很重要。 第一個輸出連接埠包含規則運算式為 true 的資料列。 在本案例中,第一個連接埠包含以美國為基礎的收入資料列,且第二個連接埠則包含不是以美國為基礎的收入資料列

  5. 在畫布右側的元件詳細資料窗格中,設定下列選項:

    資料存放區類型:Azure Blob 儲存體

    資料存放區:選取現有資料存放區,或選取 [新增資料存放區] 建立新的資料存放區

    路徑/data/us-income

    檔案格式:csv

    注意

    本文假設您可存取向目前 Azure Machine Learning 工作區註冊的資料存放區。 如需資料存放區設定指示,請參閱連線至 Azure 儲存體服務

    如果您沒有資料存放區,則可立即建立。 基於範例目的,本文會將資料集儲存到與工作區建立關聯的預設 Blob 儲存體帳戶。 其會將資料集儲存到名為 data 新資料夾中的 azureml 容器

  6. 選取已連線至 [分割資料] 元件的最右邊連接埠的 [匯出資料] 元件,以開啟 [匯出資料] 設定窗格

  7. 在畫布右側的元件詳細資料窗格中,設定下列選項:

    資料存放區類型:Azure Blob 儲存體

    資料存放區:選取先前的資料存放區

    路徑/data/non-us-income

    檔案格式:csv

  8. 驗證連線至 [分割資料] 左側連接埠的 [匯出資料] 元件具備 [路徑] /data/us-income

  9. 驗證連線至右側連接埠的 [匯出資料] 元件具備 [路徑] /data/non-us-income

    管線和設定應會如下:

    顯示如何設定匯出資料元件的螢幕擷取畫面

提交作業

現在您已將管道設為分割及匯出資料,請提交管道作業。

  1. 選取畫布頂端的 [設定和提交]

  2. 在 [設定管線作業] 的 [基本資料] 窗格中,選取 [新建] 選項,以建立實驗

    實驗會依照邏輯將相關的管道作業分組。 若您在未來執行此管線,則建議針對記錄和追蹤使用相同的實驗

  3. 提供描述性的實驗名稱,例如 "split-census-data"

  4. 選取 [檢閱 + 提交],然後選取 [提交]

檢視結果

管線執行完成之後,您可以瀏覽至 Azure 入口網站 Blob 儲存體,以檢視您的結果。 您也可以檢視分割資料元件的中繼結果來確認資料已正確分割。

  1. 選取 [分割資料] 元件

  2. 在畫布右側的元件詳細資料窗格中,選取 [輸出 + 記錄] 索引標籤

  3. 選取 [顯示資料輸出] 下拉式清單

  4. 選取 [結果 dataset1] 旁邊的視覺化圖示 視覺化圖示

  5. 驗證 "native-country" 資料行只包含 "United-States" 值

  6. 選取位於 [結果 dataset2] 旁邊的視覺化圖示 視覺化圖示

  7. 驗證 "native-country" 資料行不包含 "United-States" 值

清除資源

若要繼續進行此使用 Azure Machine Learning 設計工具重新定型模型操作的第二部分,請略過本節。

重要

您可以使用您所建立的資源,作為其他 Azure Machine Learning 教學課程和操作說明文章的先決條件。

刪除所有內容

如果您不打算使用所建立的任何資源,請刪除整個資源群組,以免產生任何費用。

  1. 在 Azure 入口網站中,於視窗左側選取 [資源群組]

    在 Azure 入口網站中刪除資源群組

  2. 在清單中,選取您所建立的資源群組。

  3. 選取 [刪除資源群組]

刪除資源群組同時會刪除您在設計工具中建立的所有資源。

刪除個別資產

在建立實驗的設計工具中,藉由選取個別資產,再選取 [刪除] 按鈕,即可刪除個別資產。

您在這裡建立的計算目標會在不使用時自動調整為零個節點。 如此可將費用降至最低。 如果您想要刪除計算目標,請採取下列步驟:

刪除資產

您可以選取每個資料集並選取 [取消註冊],從工作區中將資料集取消註冊。

取消註冊資料集

若要刪除資料集,請使用 Azure 入口網站或 Azure 儲存體總管移至儲存體帳戶,並手動刪除這些資產。

下一步

在本文中,您將會了解如何轉換資料集,並將其儲存至註冊的資料存放區。

繼續前往本操作指南系列的下一個部分:使用 Azure Machine Learning 設計工具重新定型模型,以使用轉換後的資料集和管線參數來定型機器學習模型。