将培训数据加载到模型生成器
了解如何从文件或 SQL Server 数据库加载培训数据集,以 ML.NET 的众多模型生成器方案中使用。 模型生成器方案可以将 SQL Server 数据库、图像文件和 CSV 或 TSV 文件格式用作培训数据。
Model Builder 仅接受带有逗号、制表符和分号分隔符的 TSV、CSV 和 TXT 文件以及 PNG 和 JPG 图像。
模型生成器方案
模型生成器可帮助你为以下机器学习方案创建模型:
- 数据分类(二元分类和多类分类):将文本数据分类为两个或更多个类别。
- 值预测(回归):预测数值。
- 图像分类(深度学习):将图像分类为两个或更多个类别。
- 建议(建议):为特定的用户生成建议项列表。
- 物体检测(深度学习):检测和识别图像中的物体。 这可以找到一个或多个物体并相应地标记它们。
本文介绍了使用文本或数值数据的分类和回归方案、图像分类方案以及物体检测方案。
从文件加载文本或数值数据
你可以将文件中的文本或数值数据加载到模型生成器中。 它接受逗号分隔 (CSV) 或制表符分隔 (TSV) 的文件格式。
在 Model Builder 的数据步骤中,选择“文件”作为数据源类型。
选择文本框旁的“浏览”按钮,并使用文件资源管理器浏览并选择数据文件。
在“要预测的列(标签)”下拉列表中选择一个类别。
注意
(可选)数据分类方案:如果标签列的数据类型(“要预测的列(标签)”下拉列表中的值)设置为布尔值 (True/False),则会在模型训练管道中使用二元分类算法。 否则将使用多类分类训练器。 使用“高级数据选项”来修改标签列的数据类型,并告知 Model Builder 应为数据使用哪种类型的训练器。
更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。
你已经为模型生成器设置了数据源文件。 单击“下一步”按钮以移至 Model Builder 中的下一步。
从 SQL Server 数据库加载数据
模型生成器支持从本地和远程 SQL Server 数据库加载数据。
本地数据库文件
若要将 SQL Server 数据库文件中的数据加载到 Model Builder,请执行以下操作:
在 Model Builder 的数据步骤中,选择“SQL Server”作为数据源类型。
选择“选择数据源”按钮。
- 在“选择数据源”对话框中,选择“Microsoft SQL Server 数据库文件” 。
- 取消选中“始终使用此选择”复选框,然后选择“继续”
- 在“连接属性”对话框中,选择“浏览”,然后选择已下载的 .MDF 文件。
- 选择“确定”
从“表名称”下拉列表选择数据集名称。
从“要预测的列(标签)”下拉列表中,选择要对其做出预测的数据类别。
注意
(可选)数据分类方案:如果标签列的数据类型(“要预测的列(标签)”下拉列表中的值)设置为布尔值 (True/False),则会在模型训练管道中使用二元分类算法。 否则将使用多类分类训练器。 使用“高级数据选项”来修改标签列的数据类型,并告知 Model Builder 应为数据使用哪种类型的训练器。
更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。
远程数据库
如需将 SQL Server 数据库连接中的数据加载到 Model Builder,请执行下列步骤:
在 Model Builder 的数据步骤中,选择“SQL Server”作为数据源类型。
选择“选择数据源”按钮。
- 在“选择数据源”对话框中,选择“Microsoft SQL Server” 。
在“连接属性”对话框中,输入 Microsoft SQL 数据库的属性。
- 提供包含要连接到的表的服务器名称。
- 设置对服务器的身份验证。 如果选择了“SQL Server 身份验证”,请输入服务器的用户名和密码。
- 在“选择或输入数据库名称”下拉列表中选择要连接的数据库。 如果服务器名称和登录信息正确,这应会自动填充。
- 选择“确定”
从“表名称”下拉列表选择数据集名称。
从“要预测的列(标签)”下拉列表中,选择要对其做出预测的数据类别。
注意
(可选)数据分类方案:如果标签列的数据类型(“要预测的列(标签)”下拉列表中的值)设置为布尔值 (True/False),则会在模型训练管道中使用二元分类算法。 否则将使用多类分类训练器。 使用“高级数据选项”来修改标签列的数据类型,并告知 Model Builder 应为数据使用哪种类型的训练器。
更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。
你已经为模型生成器设置了数据源文件。 单击“下一步”按钮链接以移至 Model Builder 中的下一步。
设置图像分类数据文件
Model Builder 要求图像分类数据为 JPG 或 PNG 文件,并且整合在与分类类别对应的文件夹中。
若要将图像加载到模型生成器,请提供指向单个顶级目录的路径:
- 此顶级目录包含一个要预测的各个类别的子文件夹。
- 每个子文件夹包含属于它的类别的图像文件。
在下面所示的文件夹结构中,顶级目录为 flower_photos。 有 5 个子目录,它们对应要预测的类别:菊花、蒲公英、玫瑰、向日葵和郁金香。 每个子目录包含属于其各自类别的图像。
\---flower_photos
+---daisy
| 100080576_f52e8ee070_n.jpg
| 102841525_bd6628ae3c.jpg
| 105806915_a9c13e2106_n.jpg
|
+---dandelion
| 10443973_aeb97513fc_m.jpg
| 10683189_bd6e371b97.jpg
| 10919961_0af657c4e8.jpg
|
+---roses
| 102501987_3cdb8e5394_n.jpg
| 110472418_87b6a3aa98_m.jpg
| 118974357_0faa23cce9_n.jpg
|
+---sunflowers
| 127192624_afa3d9cb84.jpg
| 145303599_2627e23815_n.jpg
| 147804446_ef9244c8ce_m.jpg
|
\---tulips
100930342_92e8746431_n.jpg
107693873_86021ac4ea_n.jpg
10791227_7168491604.jpg
设置物体检测图像数据文件
Model Builder 要求物体检测图像数据采用从 VoTT 生成的 JSON 格式。 JSON 文件位于项目设置中指定的“目标位置”的 vott-json-export 文件夹中 。
JSON 文件包含以下从 VoTT 生成的信息:
- 创建的所有标记
- 图像文件位置
- 图像边界框信息
- 与图像关联的标记
有关为物体检测准备数据的详细信息,请参阅从 VoTT 生成物体检测数据。
后续步骤
按照以下教程使用模型生成器生成机器学习应用:
若使用代码培训模型,请了解如何使用 ML.NET API 加载数据。