汇总数据
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
为数据集中的列生成基本描述性统计信息报告
Category: 统计函数
模块概述
本文介绍如何使用机器学习 Studio 中的 "汇总数据" 模块 (经典) ,以创建一组描述输入表中每一列的标准统计度量值。
当您想要了解完整数据集的特征时,此类摘要统计信息非常有用。 例如,你可能需要知道:
- 每个列中的缺失值有多少?
- 特征列中有多少唯一值?
- 每个列的平均值和标准偏差是多少?
该模块计算每列的重要分数,并为以输入形式提供的每个变量(数据列)返回一行汇总统计信息。
提示
您可能已经知道,通过使用 Studio 中的 " 可视化 " 选项 (经典) ,可以获取统计信息的简短列表。 但是,此可视化效果是基于某些最多行数创建的。 与此相反," 汇总数据 " 模块计算所有数据行的统计信息。
如何使用汇总数据
将 " 汇总数据 " 模块添加到试验中。 可以在 Studio (经典) 中的 " 统计函数 " 类别中找到此模块。
连接要为其生成报表的数据集。
如果只想要针对某些列进行报告,请使用选择数据集中的列模块来投影要使用的列的子集。
无需指定其他参数。 默认情况下,此模块将分析作为输入提供的所有列,并根据列中的值的类型输出一组相关的统计信息,如结果部分所述。
运行试验,或右键单击该模块,然后选择 " 运行所选项"。
结果
模块中的报表可能包含以下统计信息。
生成的确切统计信息取决于列数据类型。 有关详细信息,请参阅 技术说明 部分。
假设实例属于总体的一个典型示例。 如果需要计算人口统计信息,请使用 " 计算基本统计信息 " 模块中的选项,该模块可计算样本统计信息或人口统计信息。
列名称 | 说明 |
---|---|
功能 | 列的名称 |
计数 | 所有行的计数 |
唯一值计数 | 列中的唯一值数 |
缺失值计数 | 列中的唯一值数 |
最小值 | 列中的最低值 |
最大值 | 列中的最高值 |
平均值 | 所有列值的平均 |
平均偏差 | 列值的平均偏差 |
第 1 个四分位数 | 第 1 个四分位点的值 |
中值 | 中值列值 |
第 3 个四分位数 | 第 3 个四分位点的值 |
模式 | 列值的模式 |
范围 | 一个整数,表示最大值和最小值之间的值的数目 |
样本方差 | 列的方差;请参阅“说明” |
样本标准差 | 列的标准差;请参阅“说明” |
样本偏度 | 列的偏度;请参阅“说明” |
样本峰度 | 列的峰度;请参阅“说明” |
P0.5 | 0.5% 百分位数 |
P1 | 1% 百分位数 |
P5 | 5% 百分位数 |
P95 | 95% 百分位数 |
P99.5 | 99.5% 百分位数 |
提示
将 statistics 报表输出为表格数据集,以便可以在 BI 报表工具中使用数据,或使用这些值作为试验中其他操作的输入。
示例
有关如何在试验中使用 " 汇总数据 " 模块的示例,请参阅 Azure AI 库:
从 uci 下载数据集:使用其在 uci 机器学习存储库中的 URL 读取 CSV 格式的数据集,并生成有关该数据集的某些基本统计信息。
数据集处理和分析:将数据集加载到工作区,更改列名并添加元数据。
学生绩效预测:从 Azure Blob 存储中读取以 TSV 格式存储的数据。
技术说明
对于数字列和布尔值列,可以输出平均值、中值、模式和标准偏差。
对于非数字列,只计算“计数”、“唯一值计数”和“缺失值计数”的值。 对于其他统计信息,返回 null 值。
使用以下规则处理包含布尔值的列:
在计算“最小值”时应用逻辑 AND。
计算 Max时,应用逻辑 OR
在计算“范围”时,该模块首先检查列中的唯一值数是否等于 2。
在计算需要浮点计算的任何统计量时,True 值将视为 1.0,False 值将视为 0.0。
预期输入
名称 | 类型 | 说明 |
---|---|---|
数据集 | 数据表 | 输入数据集 |
输出
名称 | 类型 | 说明 |
---|---|---|
结果数据集 | 数据表 | 包含描述性统计信息的输入数据集的配置文件 |
例外
异常 | 描述 |
---|---|
错误 0003 | 如果一个或多个输入为 null 或为空,则会发生异常。 |
错误 0020 | 如果某些数据集中传递给模块的列数太小,则会发生异常。 |
错误 0021 | 如果某些数据集中传递给模块的行数太小,则会发生异常。 |
有关特定于 Studio (经典) 模块的错误列表,请参阅机器学习错误代码。
有关 API 异常的列表,请参阅机器学习 REST API 错误代码。