轉換成 TSV
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
將轉換為 tab 鍵分隔的格式的資料輸入
類別: 資料格式轉換
模組概觀
本文說明如何在機器學習 Studio (傳統) 中使用 [轉換成 TSV ] 模組,將任何資料集從所有機器學習 Studio (傳統) 模組所使用的內部格式轉換成以定位字元分隔格式的一般檔案。
Tab 鍵分隔值 (TSV) 的檔案與許多外部工具相容,包括:
R 和 Python
Excel 和 PowerPivot
所有的關聯式資料庫
例如,如果您的實驗具有您想要儲存以在其他工具中重複使用的中繼資料集,或想要從程式碼呼叫,請將它轉換成 TSV 格式,然後以滑鼠右鍵按一下已轉換的資料集,以取得存取資料集所需的 Python 程式碼。
如何使用轉換成 TSV
每當您需要以 tab 分隔的格式下載資料集時,請使用 [ 轉換成 TSV ] 模組。
將 [ 轉換成 TSV ] 加入至您的實驗。 您可以在機器學習 Studio (傳統) 的 [資料格式轉換] 分類中找到此模組。
將模組連線到另一個資料集,或輸出至輸出表格式資料集的模組。
執行實驗,或只以滑鼠右鍵按一下 [ 轉換成 TSV ] 模組,然後選取 [ 執行選取的]。
結果
轉換完成時,您可以開啟資料集、從 R 或 Python 程式碼呼叫它、在 Jupyter 筆記本中使用它,或將它儲存至本機檔案。
如果您想要下載資料集,請按兩下模組輸出,並指出您是否要開啟或儲存資料集。
如果您選取 [ 開啟],系統就會使用您的電腦預設開啟的任何工具來載入資料集。TSV 檔案。 這通常是 Microsoft Excel。
如果您選取 [ 下載資料集],預設會使用模組的名稱加上代表工作區識別碼的 GUID 來儲存檔案。 不過,您可以在下載期間選取 [ 另存 新檔] 選項,然後變更檔案名或位置。
範例
雖然沒有此格式特有的範例,但您可以在 Azure AI 資源庫中探索這些範例實驗,以查看如何使用格式轉換的範例:
二元分類的交叉驗證範例:將交叉驗證的結果匯出至逗號分隔值 (CSV) 格式,如此一來,可以使用 Excel 之類的工具來比較多個模型的結果。
以色彩為基礎的影像壓縮量化:將分析的每個部分所使用的資料集匯出至 csv 檔案,讓您可以在支援 CSV 格式的任何工具中,輕鬆地執行類似的模型。
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
TSV 格式需求
Tab 鍵分隔值 (TSV) 是一種文字格式,可用來將資料儲存在表格式結構中。 它和 CSV 格式非常相似,但分隔符號是 Tab 字元,而不是逗號。
如果您的資料包含逗號,以 TSV 格式來替代 CSV 格式會很好用。 逗號在文字資料中很常見,並且會用在歐洲的數字格式中。
Tab 鍵分隔格式有一個問題,那就是在非結構化文字中,經常會將定位點視為空格。 不過,TSV 的 IANA 標準不允許在欄位中使用 Tab 字元,有助於清楚並準確地剖析 TSV 檔案。
請注意下列機器學習 Studio (傳統) 中的 TSV 檔案需求:
TSV 提供者僅支援 UTF-8 字元編碼。
讀取或寫入 TSV 檔案時,效能可能會比使用其他格式 (例如 CSV) 慢。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 輸入資料集 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | GenericTsv | 輸出資料集 |