共用方式為


轉換為資料集

本文說明如何使用 Azure 機器學習 設計工具中的 [轉換成數據集] 元件,將管線的任何資料轉換成設計工具的內部格式。

在大部分情況下,不需要轉換。 當對數據執行任何作業時,Azure 機器學習 會隱含地將數據轉換成其原生數據集格式。

如果您已對一組數據執行某種正規化或清除,而且您想要確保變更用於其他管線,建議您將數據儲存至數據集格式。

注意

轉換成數據集只會變更數據的格式。 它不會在工作區中儲存新的數據複本。 若要儲存數據集,請按兩下輸出埠,選取 [另存新數據集],然後輸入新的名稱。

如何使用轉換為數據集

建議您在使用 [轉換成數據集] 之前,先使用 [編輯元數據 ] 元件來準備數據集。 您可以新增或變更數據行名稱、調整數據類型,並視需要進行其他變更。

  1. 將 [轉換成數據集] 元件新增至您的管線。 您可以在設計工具的 [資料轉換 ] 類別中找到此元件。

  2. 將它連接到輸出數據集的任何元件。

    只要資料是 表格式,您就可以將它轉換成數據集。 這包括透過 匯入數據載入的數據、透過 手動輸入資料建立的數據,或透過 套用轉換轉換的數據集。

  3. 在 [ 動作] 下拉式清單中,指出您是否要在儲存資料集之前對數據進行任何清除:

    • :依目前使用數據。

    • SetMissingValue:將特定值設定為數據集中的遺漏值。 默認佔位元是問號字元 (?),但您可以使用 [自定義遺漏值 ] 選項來輸入不同的值。 例如,如果您輸入Taxi做為自定義遺漏值,則數據集中的所有Taxi實例都會變更為遺漏值。

    • ReplaceValues:使用此選項可指定要取代為任何其他確切值的單一精確值。 您可以藉由設定 Replace 方法來取代遺漏的值或自訂值:

      • 遺漏:選擇此選項以取代輸入數據集中的遺漏值。 針對 [ 新增值],輸入值,以取代遺漏的值。
      • 自訂:選擇此選項以取代輸入數據集中的自定義值。 針對 [ 自定義值],輸入您想要尋找的值。 例如,如果您的資料包含做為遺漏值的佔位元使用的字串 obs ,請輸入 obs。 針對 [ 新增值],輸入新值,以取代原始字串。

    請注意, ReplaceValues 作業僅適用於完全相符專案。 例如,這些字串不會受到影響: obs.obsolete

  4. 提交管線。

結果

  • 若要以新名稱儲存產生的數據集,請選取元件右面板中 [輸出] 索引標籤下的 [註冊數據集] 圖示

技術注意事項

  • 任何採用數據集做為輸入的元件,也可以取得 CSV 檔案或 TSV 檔案中的數據。 在執行任何元件程式代碼之前,會預先處理輸入。 前置處理相當於在輸入上執行 [轉換成數據集] 元件。

  • 您無法從 SVMLight 格式轉換成資料集。

  • 當您指定自定義取代作業時,搜尋和取代作業會套用至完整的值。 不允許部分相符專案。 例如,您可以使用 -1 或 33 來取代 3,但不能以兩位數數位取代 3,例如 35。

  • 針對自定義取代作業,如果您使用 取代任何不符合數據行目前數據類型的字元,則取代將會以無訊息方式失敗。

下一步

請參閱 Azure 機器學習 可用的元件集。