你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
了解数据集
机器学习模型从训练数据中捕获的历史决策和动作中“学习”。 因此,它们在实际场景中的表现在很大程度上受到所训练数据的影响。 当数据集中的特征分布出现偏差时,可能会导致模型错误地预测属于代表性不足组的数据点,或者根据不恰当的指标进行优化。
例如,虽然模型已训练 AI 系统来预测房价,但训练集代表的是 75% 的低于中值价格的新房。 因此,它在成功识别更昂贵的历史房屋方面的准确性要低得多。 解决方法是在训练数据中添加较旧且昂贵的房屋,并对特征进行扩充,使之包含有关历史价值的见解。 该数据扩充改进了结果。
负责任 AI 仪表板的数据分析组件有助于根据预测结果和实际结果、错误组和特定特征将数据集可视化。 它有助于识别过度代表和代表不足的问题,了解数据在数据集中是如何聚集的。 数据可视化由聚合绘图或各数据点组成。
何时使用数据分析
在以下情况下需要使用数据分析:
- 选择不同的筛选器将数据切片为不同的维度(也称为队列)以浏览数据集统计信息。
- 了解数据集在不同队列和功能组中的分布。
- 确定与公平性、错误分析和因果关系(来自其他仪表板组件)相关的发现是否是数据集分布的结果。
- 确定在哪些领域收集更多数据,以减少由表示问题、标签噪声、特征噪声、标签偏差以及类似因素引起的错误。
后续步骤
- 了解如何通过 CLI 和 SDK 或 Azure 机器学习工作室 UI 生成负责任 AI 仪表板。
- 探索负责任 AI 仪表板的受支持数据分析可视化效果。
- 了解如何根据在负责任 AI 仪表板中观察到的见解生成负责任 AI 记分卡)。