已不再支援此瀏覽器。
請升級至 Microsoft Edge,以利用最新功能、安全性更新和技術支援。
您有一組特定的問題,想要確保聊天應用程式正確回答。 要驗證該目的的最佳評估為何?
模型基準
手動評估
機器學習計量
哪個模型基準會將基礎來源與產生的回應之間的語意相似性量化?
GPT 相似度
連貫性
正確性
您想要評估產生的文字遵守文法規則的情況。 哪一個評估類型最適合使用?
自動化評估
風險和安全性計量
您必須先回答所有問題,才能檢查進度。
此頁面對您有幫助嗎?