在 Azure AI Foundry 入口網站遊樂場中手動評估提示
重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
當您開始使用提示工程時,應該一次測試一個不同的輸入,以評估提示非常耗費時間的效率。 這是因為檢查內容篩選是否正常運作、回應是否正確等等事項很重要。
為了簡化此程式,您可以在 Azure AI Foundry 入口網站中使用手動評估,這是一種評估工具,可讓您在單一介面中持續反覆查看和評估測試數據的提示。 您也可以手動對輸出、模型的響應進行評分,以協助您對提示有信心。
手動評估可協助您開始了解提示的執行效能,並逐一查看您的提示,以確保您達到所需的信賴度等級。
在本文中,您會了解:
- 產生您的手動評估結果
- 為模型回應評分
- 逐一查看您的提示並且重新評估
- 儲存並比較結果
- 使用內建計量進行評估
必要條件
若要產生手動評估結果,您必須準備好下列項目:
下列其中一種格式的測試資料集:csv 或 jsonl。 如果您沒有可用的資料集,我們也支援透過 UI 手動輸入資料。
下列任一種模型的部署:GPT 3.5 模型、GPT 4 模型或 Davinci 模型。 若要深入了解如何建立部署,請參閱部署模型。
注意
目前,僅針對聊天和完成工作類型支援 Azure OpenAI 模型手動評估。
產生您的手動評估結果
從 [遊樂場] 中,選取 [手動評估],開始根據測試資料和提示手動檢閱模型回應的程序。 您的提示會自動轉換為您的 [手動評估],現在您只需要新增據以評估提示的測試資料。
這可以使用 [輸入] 資料行中的文字輸入框手動完成。
您也可以使用 [匯入資料] 來選擇專案中其中一個先前現有資料集,或上傳 CSV 或 JSONL 格式的資料集。 載入您的資料之後,系統會提示您適當地對應資料行。 完成並選取 [匯入] 之後,資料就會適當地填入下列資料行。
注意
您可以將多達 50 個輸入資料列新增至手動評估。 如果您的測試資料有超過 50 個輸入資料列,我們將會上傳輸入資料行中的前 50 個輸入資料列。
現在已新增您的資料,您可以 執行 以使用模型的響應填入輸出數據行。
為模型回應評分
您可以為每個回應提供優劣評等,以評估提示輸出。 根據您提供的評等,您可以在快速摘要中檢視這些回應分數。
逐一查看您的提示並且重新評估
根據摘要,您可能會想要對提示進行變更。 您可以使用上述提示控制項來編輯提示設定。 可以是更新系統訊息、變更模型或編輯參數。
進行編輯之後,您可以選擇重新執行全部以更新整個數據表,或將焦點放在重新執行第一次不符合預期的特定數據列上。
儲存並比較結果
填入結果之後,您可以選取 [儲存結果] 與小組共用進度,或稍後從您離開的地方繼續進行手動評估。
您也可以藉由在 [手動評估] 下的 [評估] 索引標籤中儲存及檢視,以比較不同手動評估的優劣評等。
下一步
深入了解如何評估您的生成式 AI 應用程式:
深入了解損害風險降低技巧。