知識檢查

已完成
1.

您有一組特定的問題,想要確保聊天應用程式正確回答。 要驗證該目的的最佳評估為何?

2.

哪個模型基準會將基礎來源與產生的回應之間的語意相似性量化?

3.

您想要評估產生的文字遵守文法規則的情況。 哪一個評估類型最適合使用?