轉換成 ARFF
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
將資料輸入轉換成 Weka 工具組使用的屬性關聯檔案格式
類別: 資料格式轉換
模組概觀
本文描述如何使用機器學習 Studio (傳統) 中的 [轉換成 ARFF ] 模組,以轉換資料集和結果 Weka 工具組所使用的屬性關聯檔案格式。 此格式稱為 ARFF。
適用于 Weka 的 ARFF 資料規格支援多個機器學習工作,包括資料前置處理、分類和特徵選取。 採用這種格式時,資料會依實體和其屬性來組織,而且會包含在單一文字檔中。 您可以在 [ 技術附注 ] 區段中找到 Weka 檔案格式的詳細資料。
一般來說,只有當您想要同時使用機器學習和 Weka,並且想要在它們之間來回移動定型資料時,才需要轉換成 Weka 檔案格式。
如需 Weka 工具組的詳細資訊,請參閱這篇維琪百科文章: Weka (machine learning)
警告
您無法在 Azure 儲存體中覆寫現有的 ARFF 檔案。
如何使用轉換成 ARFF
將 [ 轉換成 ARFF ] 模組新增至您的實驗。 您可以在機器學習 Studio (傳統) 的 [資料格式轉換] 分類中找到此模組。
連線到輸出資料集的任何模組。
執行實驗,或按一下 [ 轉換成 ARFF ] 模組,然後按一下 [ 執行選取]。
結果
若要在本機資料夾中建立資料的複本,請按兩下 [ 轉換成 ARFF] 的輸出,然後選取 [ 下載 ] 選項。
如果您未指定資料夾,則會套用預設檔案名,並將檔案儲存在本機 下載 程式庫中。
注意
此模組不支援匯出至 Python 或 R 程式碼。
範例
Azure AI 資源庫中沒有此格式特定的範例。 不過,這些實驗示範其他類型的格式轉換:
以色彩為基礎的影像壓縮:將分析的每個部分所使用的資料集匯出至檔案,以便在其他分析平臺上重現性和使用。
二元分類的交叉驗證範例:將交叉驗證的結果匯出至檔案,以便使用 Excel 之類的工具來比較多個模型的結果。
技術說明
本節包含實作詳細資料、提示和常見問題集的解答。
ARFF 格式的範例
本節提供轉換成 ARFF 時一般資料集的外觀範例。
一般而言,ARFF 資料檔是由兩個區段所組成:定義資料來源和架構的 標頭 ,以及包含實際實體及其屬性的 資料 區段。
ARFF 標頭
ARFF 檔的標頭會定義資料行中 (的屬性清單) 和其資料類型。 標頭也可能包含多個註解行,以描述資料來源或任何其他注意事項。
% Source: Iris dataset, UCI % 0 = Iris-setosa, 1= Iris-virginica @RELATION iris @ATTRIBUTE sepal_length NUMERIC @ATTRIBUTE sepal_width NUMERIC @ATTRIBUTE petal_length NUMERIC @ATTRIBUTE petal_width NUMERIC @ATTRIBUTE class {0, 1}
提示
如果您要轉換的資料集沒有資料行名稱,請在使用 [轉換成 ARFF] 之前,先使用 [ 編輯中繼資料 ] 模組來加入資料行名稱。
ARFF 資料
Data 區段包含逗點分隔值,看起來很像 CSV 檔案,沒有資料行標題。
@DATA 5.1,3.5,1.4,0.2,0
如需此檔案格式的詳細資訊,請參閱 Weka Wiki 頁面: ARFF (developer 版本) 。
目前的 ARFF 版本
機器學習 Studio (傳統) 使用 ARFF 3.0 格式儲存 ARFF 檔案。
預期的輸入
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 輸入資料集 |
輸出
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | Arff | 輸出資料集 |