知识检查

3 分钟

1.

你有一组特定的问题，你希望确保你的聊天应用程序能够回答正确。验证这一点的最佳评估是什么？

模型基准

手动评估

机器学习指标

2.

哪个模型基准可以量化基本源与生成的响应之间的语义相似性？

GPT 相似性

一致性

准确性

3.

你想要评估生成的文本在多大程度上符合语法规则。哪种类型的评估最适合使用？

手动评估

自动评估

风险和安全指标

在检查工作前，必须回答所有问题。