数据表
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
数据表类
数据集是指已上传到机器学习工作室(经典版),可在建模过程中使用的数据。 即使你以其他格式上载数据,或指定 CSV、ARFF 或 TSV 之类的存储格式,模块在试验中使用数据时都会将数据隐式转换成DataTable
对象。
数据集基于 .NET 数据表
列类型
DataTable
由具有关联元数据的列的集合组成。 这些列实现 IArray
接口。 机器学习 Studio (经典) 中的数据列被理解为一维数组 ,即向量。
.NET Array 类实现以下泛型接口: System.Collections.Generic.IList<T>
、 System.Collections.Generic.ICollection<T>
和 System.Collections.Generic.IEnumerable<T>
。
int
、 和 类型的double
Boolean
列通常表示为数值密集数组。 如果密集列包含缺失值,它将作为缺失值数组或可为空对象密集数组进行处理。
包含字符串的列被处理成对象密集数组。 如果存在缺失值,则缺失值表示为 null 或类型 MissingValuesObjectArray<string>
。
有关详细信息,请参阅 MSDN 库 (数组类) 。
获取 DataTable 中的列
可以通过在 DataTable 上调用 方法来 GetColumn
获取列。 方法 GetColumn
有两个重载:
GetColumn(<Int64>)
按索引获取列。GetColumn(<string>)
按名称获取列。
工作室中的其他接口 (经典)
本部分还介绍了适用于 机器学习 Studio (经典) :
类型 | 说明 |
---|---|
ICluster 接口 | ICluster 接口定义聚类分析模型的结构。 |
IFilter 接口 | IFilter 接口定义应用于整个数值系列的数字信号处理筛选器的结构。 可以创建筛选器,然后将筛选器保存并应用于新系列。 |
ILearner 接口 | ILearner 接口提供用于定义和保存分析模型的泛型结构,不包括某些特殊类型(如聚类分析模型)。 |
ITransform 接口 | ITransform 接口提供用于定义和保存转换的泛型结构。 可以使用 机器学习 Studio (经典) 创建 iTransform,然后将转换应用到新数据集。 |