预测模型性能
每次训练后,AI Builder 都使用测试数据集来评估新模型的质量和匹配度。 模型的摘要页面显示了模型训练结果。 这些结果表示为性能等级:A、B、C 或 D。
测量性能
性能等级
每次训练之后,AI Builder 将显示有助于评估模型准确性的等级。 关于模型是否已准备好进行发布的决定是您必须根据自己的独特需求和环境作出的。 AI Builder 提供以下性能等级来帮助您作出主观判断。
如何解释每个等级
等级 | 指导 |
---|---|
A | 也许仍然有可能改进模型,但这是您能得到的最佳等级。 |
B | 该模型很多时候都是正确的。 是否可以改进? 这取决于您自己独特的环境、数据和要求。 |
C | 该模型比随机推测稍微好一点。 对于某些应用程序来说,这可能是可以接受的,但在大多数情况下,您需要继续调整和改进该模型。 |
D | 出现了错误。 您的模型的表现比我们预期的随机猜测要差(欠拟合模型)。 或者,它的效果非常好(达到或接近 100%),让您可能有一个与结果直接相关的数据列 (过拟合模型)。 |
准确度范围因数据而异
如果您预测 2 个或更多结果,对应于上述等级的实际准确率可能会根据历史数据的数据分布而有所不同。 这一差异解释了当您移动基线时,相对于基线率的改进会发生变化。
假设你的模型会预测某趟运输是否将按时到达。 如果你的历史准时率是80%,那么性能分数为 92 就相当于 B 级。 但是,如果你的历史准时率是50%,那么 92 就相当于 A 级。 这是因为与历史批准率80% 相比,分数92% 对历史批准率 50% 来说改进程度更大,而你会期望随机推测接近这些百分比。
二进制历史数据示例
该示例显示了当历史数据包含二进制预测的不同的准时率时,每个等级的准确度范围如何。
等级 | 历史准时率为 25% 时的准确度范围 | 历史准时率为 50% 时的准确度范围 | 历史准时率为 80% 时的准确度范围 | 历史准时率为 95% 时的准确度范围 |
---|---|---|---|---|
A | 92.5 – <99.3% | 90 – 98% | 93 – <99% | 98.1 – <99.8% |
B | 81.3 – <92.5% | 75 – <90% | 84 – <93% | 95.3 – <98.1% |
C | 66.3 – <81.3% | 55 – <75% | 71 – <84% | 91.5 – <95.3% |
D | <66.3% 或 ≥99.3% | <55% 或 ≥98% | <71% 或 ≥99% | <91.5%或 ≥99.8% |
多个结果历史数据示例
当您预测 2 个以上结果时,与每个等级相对应的准确率也会有所不同。 假设您的模型预测了两个选项以上的交货:提前、准时或推迟。
当您的历史准时率发生变化时,每个等级的准确度范围也会变化。
等级 | 提前 (33.3%) | 提前 (20%) | 提前 (10%) |
---|---|---|---|
准时 (33.3%) | 准时 (40%) | 准时 (80%) | |
推迟 (33.4%) | 推迟 (40%) | 推迟 (10%) | |
A | 86.7 – <98.7% | 87.2 – <98.7% | 93.2 – <99.3% |
B | 66.7 – <86.7% | 68.0 – <87.2% | 83.0 – <93.2% |
C | 40.0 – <66.7% | 42.4 – <68.0% | 69.4 – <83.0% |
D | 33.3 – <40.0% | 36.0 – <42.4% | 66.0 – <69.4% |
数字预测示例
对于数值预测,AI Builder 使用 R 平方统计度量来计算模型的准确度等级。 下表显示了与每个等级对应的等级:
等级 | R 平方 |
---|---|
A | 85% - <99% |
B | 60% - <85% |
C | 10% - <60% |
D | ≥99% 或 <10% |
性能详细信息
有关训练的详细信息,请选择模型“等级”框中的请参阅详细信息。 在性能选项卡上,以下信息可用:
备注
要了解为此区域计划的其他特征,请查看发布计划。
- 准确度分数
- R 平方
准确度分数
AI Builder 根据测试数据集的预测结果计算模型的准确度分数。 在训练之前,AI Builder 会将数据集分离为单独的训练数据和测试数据集。 训练后,AI Builder 会将 AI 模型应用到测试数据集,然后计算准确度分数。 例如:如果您的测试数据集有 200 行,AI Builder 正确预测了其中的 192 行,AI Builder 将显示准确度分数为 96%。
有关详细信息,请参阅评估模型。
R 平方
对于数值预测,AI Builder 会在每次训练后计算一个 r 平方分数。 此分数用于衡量模型的“匹配优度”,并用于确定模型的性能等级。
假设您要预测履行、运输和送达某个订单所耗的天数。 该模型会预测一组数字。 R 平方值基于您的训练数据中预测的值与实际值之间的差距。 结果以 0-100% 之间的数字表示,值越高,表示预测的值越接近实际值。 通常情况下,分数越高,模型的表现越好。 但请记住,完美或接近完美的分数(过拟合模型)通常表示您的训练数据有问题。
在摘要选项卡上,以下性能信息可用:
- 训练日期
- 数据源
- 历史结果
- 用于进行预测的表列表。
提高预测模型性能
在对模型进行训练和评估后,可以调整模型以提高其性能。 可以尝试通过以下方式帮助提高模型预测能力。
检查错误和问题
- 完成训练后,如果有任何错误,请修复它们并重新训练模型。
- 如果没有错误,请检查训练详细信息。 尝试尽可能多地解决问题,然后重新训练模型。
检查主要影响因素
每次训练后,模型详细信息页上都会显示主要影响因素列表。 训练中使用的每个列都有一个分数,表示其对训练的影响。 这些分数加起来等于 100%。
这有助于显示您的模型是否按预期进行了训练。 例如,如果您要预测在线购物者的意愿,预期年龄、产品会是最有影响力的列,您应该会在模型详细信息页面的最有影响力列列表中看到它们。 否则,可能表明训练结果与预期不符。 在这种情况下,可以取消选择不相关或有误导性的列并重新训练模型,或检查训练问题以查看更多详细信息。
添加更多数据
训练数据的最低要求是 50 个行,但这并不意味着 50 个数据行可以训练出预测能力很强的模型。 尝试提供 1,000 或更多数据行,确保其进行了正确的标记,并且各选项的分布符合实际。
检查数据分布
例如,如果使用两个选项标签是或否,而大多数数据行的这一列为是,那么模型很难从这些数据中进行学习。 尽量使数据的选项分布大致反映预期的选项分布情况。 例如,对于可能是 cat_owner 和 dog_owner 的数据列,请使这两个选项的数据各占 50% 左右。 如果你在研究有欺诈性质的交易,请使用更不平衡的分配(可以是 95% - 5%)。 如果您不知道如何确定预期,请查看此类信息的行业标准。
添加更多列
例如,你想预测哪些客户更有可能回购你的产品。 可以添加更多列,使训练数据更丰富。 例如:
- 他们如何评价产品?
- 他们对产品的使用情况如何?
- 他们是否为现有客户?
将所选列缩小到相关信息
您可能已有大量正确标记的训练数据,其中包含许多数据列。 为什么模型预测效果仍不尽如人意? 可能是所选列导致了不必要的偏差。 确保所选的所有列都与要预测的内容相关。 取消选择不相关或误导性列。
验证数据
- 确保数据列没有很高的漏值率(大于 99%)。 使用默认数据填充缺少的值,或从模型训练中删除该数据列。
- 如果某个数据列与预测结果高度相关,请从模型训练中删除该数据列。