資料格式轉換
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
本文列出機器學習 Studio (傳統) 中提供的模組,以在機器學習中使用的各種檔案格式之間轉換資料。
支援的格式包括:
- 在機器學習中使用的資料集格式。
- Weka使用的ARFF格式。 Weka 是一組開放原始碼以 JAVA 為基礎的機器學習演算法。
- SVMLight格式。 SVMLight 格式是針對適用于機器學習的 SVMLight 架構而開發。 Vowpal Wabbit 也可以使用它。
- 以 tab 鍵分隔的 (TSV) 和 逗點分隔 (CSV) 大部分關係資料庫所支援的一般檔案格式。 R 和 Python 也廣泛支援這些格式。
當您將資料轉換成這些格式時,您可以更輕鬆地在不同的機器學習架構或儲存機制之間移動結果和資料。
常見的資料轉換案例
如果您需要將資料從機器學習實驗移至另一部機器學習工具或平臺,您通常會使用資料轉換模組。 您也可以使用模組,從機器學習使用可供資料庫或其他工具使用的格式來匯出資料。 例如:
Task | 使用 |
---|---|
您必須儲存要在 Excel 中使用的中繼資料集,或匯入至資料庫。 | 使用 CSV 模組或 TSV 模組,以正確的格式來準備資料。 然後,下載資料或將其儲存至 Azure 儲存體。 |
您想要在 R 或 Python 程式碼中重複使用實驗中的資料。 | 使用 CSV 模組或 TSV 模組來準備資料。 然後,以滑鼠右鍵按一下已轉換的資料集,以取得存取資料集所需的 Python 程式碼。 |
您要在 Weka 和機器學習之間移植實驗和資料。 | 使用 ARFF 模組來準備資料。 然後,下載結果。 |
您必須準備 SVMlight 架構中的資料。 | 使用 [ 轉換成 SVMLight ] 模組來準備資料。 然後,下載產生的資料。 |
建立要搭配 Vowpal Wabbit 使用的資料。 | 使用 SVMLight 格式。 然後,依照本文中的說明修改檔案。 將檔案儲存在 Azure Blob 儲存體中,以搭配機器學習中的 Vowpal Wabbit 模組使用。 |
資料不是表格格式。 | 使用 [ 轉換成資料集 ] 模組,將它強制轉換成資料集格式。 |
相關工作
如果您需要將資料匯入機器學習或轉換個別資料行中的資料,請在執行資料轉換之前,先使用這些模組:
Task | 使用 |
---|---|
從我的電腦將資料匯入機器學習。 | Upload CSV 格式的資料集,如將定型資料匯入機器學習 Studio (傳統) 所述。 |
從雲端資料來源匯入資料,包括 Hadoop 或 Azure。 | 使用「匯 入資料 」模組。 |
將機器學習資料集儲存至 Azure Blob 儲存體、Hadoop 叢集或其他雲端式儲存體。 | 使用「 匯出資料 」模組。 |
將資料行的資料類型或轉換資料行變更為不同的格式或類型。 | 在機器學習中,請使用 [編輯中繼資料] 或 [套用SQL 轉換模組]。 如果您精通 R 或 Python,請嘗試 執行 Python 腳本 或 執行 R 腳本 模組。 |
四捨五入、群組或標準化數值資料。 | 使用「套用 數學運算」、將 資料群組至「bin」或將 資料模組標準化 。 |
模組清單
資料格式轉換類別包含下列模組:
- 轉換成 ARFF:將資料輸入轉換成 Weka 工具組所使用的屬性關聯檔案格式。
- 轉換成 CSV:將資料集轉換成逗點分隔值格式。
- 轉換成資料集:將資料輸入轉換為機器學習所使用的內部資料集格式。
- 轉換成 SVMLight:將資料輸入轉換成 SVMLight framework 所使用的格式。
- 轉換成 TSV:將資料輸入轉換為定位字元分隔格式。