共用方式為


啟用測量:支援基礎結構

本文詳細說明測量品質所需的基礎結構,以及 Databricks 的提供方式。 測量品質並不容易,需要大量基礎設施投資。

詳細的追蹤記錄

RAG 應用程式邏輯的核心是鏈結中的一系列步驟。 若要評估和偵錯品質,需要實作檢測來追蹤鏈結的輸入和輸出,鏈結的每個步驟,以及其相關聯的輸入和輸出。 您建立的檢測應在開發和生產環境中以相同的方式運作。

在 Databricks 中,MLflow 追蹤提供這項功能。 使用 MLflow 追蹤記錄,您可以在生產環境中檢測程式碼,並在開發和生產環境中取得相同的追蹤。 生產追蹤會記錄為推斷資料表的一部分。

利害關係人檢閱 UI

身為開發人員,您通常不是您所開發應用程式內容的領域專家。 若要收集可評估應用程式輸出品質的人類專家的意見反應,您需要一個介面,讓他們能夠與早期版本的應用程式互動並提供詳細的意見反應。 此外,您需要一種方式來載入特定應用程式輸出,讓利害關係人評估其品質。

此介面必須以結構化方式追蹤應用程式的輸出和相關聯的意見反應,並將完整的應用程式追蹤和詳細的意見反應儲存在資料表中。

在 Databricks 中,代理程式評估檢閱應用程式提供這項功能。

品質、成本和延遲計量架構

您需要一種方法來定義計量,以全面測量鏈結的每個元件和端對端應用程式的的品質。 在理想情況下,除了支援自訂之外,架構還會提供一套現成的標準計量,因此您可以新增計量,以測試您的業務特有的品質層面。

在 Databricks 中,代理程式評估提供現用的實作,使用託管的 LLM 判斷模型,以取得必要的品質、成本和延遲計量。

評估控管

您需要一種方法,以快速且高效地從您的鏈結取得評估集中每個問題的輸出,然後評估相關計量上的每個輸出。 此控管必須盡可能高效,因為您會在每個嘗試改善品質的實驗之後執行評估。

在 Databricks 中,代理程式評估提供與 MLflow 整合的評估控管

評估集管理

您的評估集是一組活生生的問題,您會在應用程式的開發和生產生命週期過程中對其不斷迭代更新。

在 Databricks 中,您可以將評估集當成差異資料表進行管理。 在使用 MLflow 進行評估時,MLflow 會自動記錄所使用評估集版本的快照集。

實驗追蹤架構

在應用程式開發過程中,您將嘗試眾多不同的實驗。 實驗追蹤架構能讓您記錄每個實驗,並追蹤其計量與其他實驗。

在 Databricks 中,MLflow 提供實驗追蹤功能。

鏈結參數化架構

您嘗試的許多實驗都需要保存鏈結的程式碼常數,同時逐一查看程式碼所使用的各種參數。 您需要可讓您執行此作業的架構。

在 Databricks 中,MLflow 模型組態會提供這些功能。

線上監視

部署之後,您需要一種方式來監視應用程式的健康情況、持續品質、成本和延遲。

在 Databricks 中,模型服務提供應用程式健康情況監視,而 Lakehouse 監視向儀表板提供持續輸出,並監視品質、成本和延遲。

< 上一個:評估效能

下一步:評估驅動開發 >