知識檢查

3 分鐘

1.

您有一組特定的問題，想要確保聊天應用程式正確回答。要驗證該目的的最佳評估為何？

模型基準

手動評估

機器學習計量

2.

哪個模型基準會將基礎來源與產生的回應之間的語意相似性量化？

GPT 相似度

連貫性

正確性

3.

您想要評估產生的文字遵守文法規則的情況。哪一個評估類型最適合使用？

手動評估

自動化評估

風險和安全性計量

您必須先回答所有問題，才能檢查進度。