將定型資料載入 Model Builder 中
了解如何從檔案或 SQL Server 資料庫載入您的定型資料集,以用於 ML.NET 的其中一個 Model Builder 案例。 Model Builder 案例可以使用 SQL Server 資料庫、影像檔案和 CSV 或 TSV 檔案格式作為定型資料。
Model Builder 僅接受具有逗號、定位字元和分號分隔符號的 TSV、CSV 和 TXT 檔案,以及 PNG 和 JPG 影像。
Model Builder 案例
Model Builder 可協助您建立下列機器學習案例的模型:
- 資料分類 (二元與多元分類):將文字資料分類為兩個或更多類別。
- 值預測 (迴歸):預測數值。
- 影像分類 (深度學習):將影像分類為兩個或更多類別。
- 建議 (建議):為特定使用者產生建議項目清單。
- 物件偵測 (深度學習):偵測及識別影像中的物件。 這可以找到一或多個物件,並加上對應的標籤。
本文說明文字或數值資料的分類和迴歸、影像分類,以及物件偵測案例。
從檔案載入文字或數值資料
您可以將檔案中的文字或數值資料載入 Model Builder 中。 這接受逗號分隔 (CSV) 或定位字元分隔 (TSV) 的檔案格式。
在 Model Builder 的資料步驟中,選取 [檔案] 作為資料來源型別。
選取文字方塊旁的 [瀏覽] 按鈕,然後使用檔案總管進行瀏覽,並選取資料檔案。
在 [要預測的資料行 (標籤)] 下拉式清單中選擇類別。
注意
(選擇性) 資料分類案例:如果標籤資料行的資料型別 (「要預測的資料行 (標籤)」下拉式清單中的值) 設定為布林值 (True/False),則會在您的模型定型管線中使用二元分類演算法。 否則,會使用多元分類定型器。 使用 [進階資料選項] 可修改標籤資料行的資料型別,並向 Model Builder 指出應對您的資料使用的定型器型別。
更新 [進階資料選項] 連結中的資料,以設定資料行設定或更新資料格式。
您已完成 Model Builder 的資料來源檔案設定。 按 [下一步] 按鈕,以移至 Model Builder 中的下一個步驟。
從 SQL Server 資料庫載入資料
Model Builder 支援從本機和遠端 SQL Server 資料庫載入資料。
本機資料庫檔案
若要將 SQL Server 資料庫檔案中的資料載入 Model Builder 中:
在 Model Builder 的資料步驟中,選取 [SQL Server] 作為資料來源型別。
選取 [選擇資料來源] 按鈕。
- 在 [選擇資料來源] 對話方塊中,選取 [Microsoft SQL Server 資料庫檔案]。
- 取消核取 [一律使用此選取項目] 核取方塊,然後選取 [繼續]
- 在 [連線屬性] 對話方塊中選取 [瀏覽],然後選取已下載的 .MDF 檔案。
- 選取確定
從 [資料表名稱] 下拉式清單中,選擇資料集名稱。
從 [要預測的資料行 (標籤)] 下拉式清單中,選擇您要預測的資料類別。
注意
(選擇性) 資料分類案例:如果標籤資料行的資料型別 (「要預測的資料行 (標籤)」下拉式清單中的值) 設定為布林值 (True/False),則會在您的模型定型管線中使用二元分類演算法。 否則,會使用多元分類定型器。 使用 [進階資料選項] 可修改標籤資料行的資料型別,並向 Model Builder 指出應對您的資料使用的定型器型別。
更新 [進階資料選項] 連結中的資料,以設定資料行設定或更新資料格式。
遠端 資料庫
若要透過 SQL Server 資料庫連線將資料載入 Model Builder 中:
在 Model Builder 的資料步驟中,選取 [SQL Server] 作為資料來源型別。
選取 [選擇資料來源] 按鈕。
- 在 [選擇資料來源] 對話方塊中,選取 [Microsoft SQL Server]。
在 [連線屬性] 對話方塊中,輸入 Microsoft SQL 資料庫的屬性。
- 提供您要連線的資料表所在伺服器的名稱。
- 設定對伺服器的驗證。 如果選取 [SQL Server 驗證],請輸入伺服器的使用者名稱和密碼。
- 在 [選取或輸入資料庫名稱] 下拉式清單中,選取要連線到的資料庫。 如果伺服器名稱和登入資訊正確,就應該會自動填入。
- 選取確定
從 [資料表名稱] 下拉式清單中,選擇資料集名稱。
從 [要預測的資料行 (標籤)] 下拉式清單中,選擇您要預測的資料類別。
注意
(選擇性) 資料分類案例:如果標籤資料行的資料型別 (「要預測的資料行 (標籤)」下拉式清單中的值) 設定為布林值 (True/False),則會在您的模型定型管線中使用二元分類演算法。 否則,會使用多元分類定型器。 使用 [進階資料選項] 可修改標籤資料行的資料型別,並向 Model Builder 指出應對您的資料使用的定型器型別。
更新 [進階資料選項] 連結中的資料,以設定資料行設定或更新資料格式。
您已完成 Model Builder 的資料來源檔案設定。 按 [下一步] 按鈕,以連結至 Model Builder 中的下一個步驟。
設定影像分類資料檔案
Model Builder 預期影像分類資料必須是 JPG 或 PNG 檔案,並且彙整於與分類的類別相對應的資料夾中。
若要將影像載入 Model Builder 中,請提供單一最上層目錄的路徑:
- 在這個最上層目錄中,每個要預測的類別都會有一個子資料夾。
- 每個子資料夾分別包含屬於其類別的影像檔案。
在下方列示的資料夾結構中,最上層目錄為 flower_photos。 有五個子目錄對應於您想要預測的類別:daisy、dandelion、roses、sunflowers 和 tulips。 其中每個子目錄分別包含屬於其各自類別的影像。
\---flower_photos
+---daisy
| 100080576_f52e8ee070_n.jpg
| 102841525_bd6628ae3c.jpg
| 105806915_a9c13e2106_n.jpg
|
+---dandelion
| 10443973_aeb97513fc_m.jpg
| 10683189_bd6e371b97.jpg
| 10919961_0af657c4e8.jpg
|
+---roses
| 102501987_3cdb8e5394_n.jpg
| 110472418_87b6a3aa98_m.jpg
| 118974357_0faa23cce9_n.jpg
|
+---sunflowers
| 127192624_afa3d9cb84.jpg
| 145303599_2627e23815_n.jpg
| 147804446_ef9244c8ce_m.jpg
|
\---tulips
100930342_92e8746431_n.jpg
107693873_86021ac4ea_n.jpg
10791227_7168491604.jpg
設定物件偵測影像資料檔案
Model Builder 預期物件偵測影像資料必須是從 VoTT 產生的 JSON 格式。 JSON 檔案位於專案設定所指定之 [目標位置] 的 vott-json-export 資料夾中。
JSON 檔案由 VoTT 產生的下列資訊組成:
- 已建立的所有標記
- 影像檔案位置
- 影像週框方塊資訊
- 與影像相關聯的標記
如需準備物件偵測資料的詳細資訊,請參閱從 VoTT 產生物件偵測資料。
下一步
依照下列教學課程,使用 Model Builder 建置機器學習應用程式:
如果您使用程式碼來定型模型,請了解如何使用 ML.NET API 載入資料。