轉換為資料集
本文說明如何使用 Azure 機器學習 設計工具中的 [轉換成數據集] 元件,將管線的任何資料轉換成設計工具的內部格式。
在大部分情況下,不需要轉換。 當對數據執行任何作業時,Azure 機器學習 會隱含地將數據轉換成其原生數據集格式。
如果您已對一組數據執行某種正規化或清除,而且您想要確保變更用於其他管線,建議您將數據儲存至數據集格式。
注意
轉換成數據集只會變更數據的格式。 它不會在工作區中儲存新的數據複本。 若要儲存數據集,請按兩下輸出埠,選取 [另存新數據集],然後輸入新的名稱。
如何使用轉換為數據集
建議您在使用 [轉換成數據集] 之前,先使用 [編輯元數據 ] 元件來準備數據集。 您可以新增或變更數據行名稱、調整數據類型,並視需要進行其他變更。
將 [轉換成數據集] 元件新增至您的管線。 您可以在設計工具的 [資料轉換 ] 類別中找到此元件。
將它連接到輸出數據集的任何元件。
只要資料是 表格式,您就可以將它轉換成數據集。 這包括透過 匯入數據載入的數據、透過 手動輸入資料建立的數據,或透過 套用轉換轉換的數據集。
在 [ 動作] 下拉式清單中,指出您是否要在儲存資料集之前對數據進行任何清除:
無:依目前使用數據。
SetMissingValue:將特定值設定為數據集中的遺漏值。 默認佔位元是問號字元 (?),但您可以使用 [自定義遺漏值 ] 選項來輸入不同的值。 例如,如果您輸入Taxi做為自定義遺漏值,則數據集中的所有Taxi實例都會變更為遺漏值。
ReplaceValues:使用此選項可指定要取代為任何其他確切值的單一精確值。 您可以藉由設定 Replace 方法來取代遺漏的值或自訂值:
- 遺漏:選擇此選項以取代輸入數據集中的遺漏值。 針對 [ 新增值],輸入值,以取代遺漏的值。
- 自訂:選擇此選項以取代輸入數據集中的自定義值。 針對 [ 自定義值],輸入您想要尋找的值。 例如,如果您的資料包含做為遺漏值的佔位元使用的字串
obs
,請輸入obs
。 針對 [ 新增值],輸入新值,以取代原始字串。
請注意, ReplaceValues 作業僅適用於完全相符專案。 例如,這些字串不會受到影響:
obs.
、obsolete
。提交管線。
結果
- 若要以新名稱儲存產生的數據集,請選取元件右面板中 [輸出] 索引標籤下的 [註冊數據集] 圖示。
技術注意事項
任何採用數據集做為輸入的元件,也可以取得 CSV 檔案或 TSV 檔案中的數據。 在執行任何元件程式代碼之前,會預先處理輸入。 前置處理相當於在輸入上執行 [轉換成數據集] 元件。
您無法從 SVMLight 格式轉換成資料集。
當您指定自定義取代作業時,搜尋和取代作業會套用至完整的值。 不允許部分相符專案。 例如,您可以使用 -1 或 33 來取代 3,但不能以兩位數數位取代 3,例如 35。
針對自定義取代作業,如果您使用 取代任何不符合數據行目前數據類型的字元,則取代將會以無訊息方式失敗。