轉換為資料集
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
將資料輸入轉換為 Microsoft 機器學習所使用的內部資料集格式
類別: 資料格式轉換
模組概觀
本文說明如何使用機器學習 Studio (傳統) 中的 [轉換成資料集] 模組,將實驗可能需要的任何資料轉換為 Studio (傳統) 所使用的內部格式。
在大部分的情況下都不需要轉換,因為在資料上執行任何作業時,機器學習會隱含地將資料轉換成其原生資料集格式。
不過,如果您已在一組資料上執行某種正規化或清除,而且想要確保所做的變更可用於進一步的實驗,則建議將資料儲存為資料集格式。
如何使用「轉換為資料集」
建議您在使用 [轉換成資料集] 之前,先使用 [編輯中繼資料] 模組準備資料集。 您可以加入或變更資料行名稱、調整資料類型等等。
將 [ 轉換成資料集 ] 模組新增至您的實驗。 您可以在機器學習 Studio (傳統) 的 [資料格式轉換] 分類中找到此模組。
連線到輸出資料集的任何模組。
只要資料是 tabular,即可將其轉換成資料集。 這包括使用匯入資料載入的資料、以手動方式使用輸入資料所建立的資料、自訂模組中的程式碼所產生的資料、使用「套用」轉換來轉換的資料集,或使用「套用SQL 轉換所產生或修改的資料集。
在 [ 動作 ] 下拉式清單中,指出您是否想要在儲存資料集之前對資料進行任何清除:
None:依原樣使用資料。
SetMissingValue:指定在資料集內任何有遺漏值的地方插入的預留位置。 預設預留位置是問號字元 (? ) ,但您可以使用 [ 自訂遺漏值 ] 選項來輸入不同的值。
ReplaceValues:使用此選項以指定要以任何其他精確值取代的單一精確值。 例如,假設您的資料包含作為遺漏值之預留位置的字串
obs
,您可以使用下列選項來指定自訂取代作業:將 Replace 設定為 Custom
針對 [ 自訂值],輸入您想要尋找的值。 在此情況下,您會輸入
obs
。在 [ 新值] 中,輸入要用來取代原始字串的新值。 在此情況下,您可以輸入
?
請注意,ReplaceValues 作業僅適用於完全相符的值。 例如,下列字串不會受到影響:
obs.
、obsolete
。- SparseOutput:表示資料集是稀疏的。 藉由建立稀疏資料向量,您可以確保遺漏值不會影響稀疏資料散發。 選擇這個選項之後,您必須指出遺漏值和零值的處理方式。
若要移除零以外的任何值,請按一下 [ 移除 ] 選項,然後輸入要移除的單一值。 您可以移除遺漏值,或設定自訂值以從向量中刪除。 只會移除完全相符的專案。 例如,如果您在 [移除值] 文字方塊中輸入
x
,資料列xx
就不會受到影響。預設會將 [ 移除零 ] 選項設定為
True
,表示在建立稀疏資料行時,將會移除所有的零值。執行實驗,或以滑鼠右鍵按一下 [ 轉換成資料集 ] 模組,然後選取 [ 執行選取的]。
結果
- 若要使用新名稱儲存產生的資料集,請以滑鼠右鍵按一下 [ 轉換成資料集 ] 的輸出,然後選取 [ 另存為資料集]。
範例
您可以看到如何在Azure AI 資源庫中使用 [轉換成資料集] 模組的範例:
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
任何接受資料集做為輸入的模組,也都可接受 CSV、TSV 或 ARFF 格式的資料。 執行任何模組程式碼之前會對輸入進行前置處理,相當於在輸入上執行 [轉換成資料集] 模組。
您無法從 SVMLight 格式轉換為資料集。
指定自訂取代作業時會將搜尋和取代作業套用至完整值。不允許部分相符。 比方說,您可以將 3 取代為 -1,或取代為 33,但是您不能取代二位數中的 3,例如 35。
在自訂取代作業中,如果您使用的任何取代字元不符合資料行的目前資料類型,則取代會失敗而無任何訊息。
如果您需要儲存的資料會使用稀疏的數值資料,而且有遺漏值,則 Studio (傳統) 使用 Sparsevector ((這是 Math.NET 數值程式庫中的類別)支援稀疏陣列。 準備使用零且有遺漏值的資料,然後使用 [ 轉換成資料集 ] 和 [引數 SparseOutput ],並 移除 [零 ] = TRUE。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 輸入資料集 |
模組參數
名稱 | 範圍 | 類型 | 預設 | 描述 |
---|---|---|---|---|
動作 | List | 動作方法 | 無 | 要套用至輸入資料集的動作 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | 資料表 | 輸出資料集 |