啟用測量:支援基礎結構
本文詳細說明測量品質所需的基礎結構,以及 Databricks 的提供方式。 測量品質並不容易,需要大量基礎設施投資。
詳細的追蹤記錄
RAG 應用程式邏輯的核心是鏈結中的一系列步驟。 若要評估和偵錯品質,需要實作檢測來追蹤鏈結的輸入和輸出,鏈結的每個步驟,以及其相關聯的輸入和輸出。 您建立的檢測應在開發和生產環境中以相同的方式運作。
在 Databricks 中,MLflow 追蹤提供這項功能。 使用 MLflow 追蹤記錄,您可以在生產環境中檢測程式碼,並在開發和生產環境中取得相同的追蹤。 生產追蹤會記錄為推斷資料表的一部分。
利害關係人檢閱 UI
身為開發人員,您通常不是您所開發應用程式內容的領域專家。 若要收集可評估應用程式輸出品質的人類專家的意見反應,您需要一個介面,讓他們能夠與早期版本的應用程式互動並提供詳細的意見反應。 此外,您需要一種方式來載入特定應用程式輸出,讓利害關係人評估其品質。
此介面必須以結構化方式追蹤應用程式的輸出和相關聯的意見反應,並將完整的應用程式追蹤和詳細的意見反應儲存在資料表中。
在 Databricks 中,代理程式評估檢閱應用程式提供這項功能。
品質、成本和延遲計量架構
您需要一種方法來定義計量,以全面測量鏈結的每個元件和端對端應用程式的的品質。 在理想情況下,除了支援自訂之外,架構還會提供一套現成的標準計量,因此您可以新增計量,以測試您的業務特有的品質層面。
在 Databricks 中,代理程式評估提供現用的實作,使用託管的 LLM 判斷模型,以取得必要的品質、成本和延遲計量。
評估控管
您需要一種方法,以快速且高效地從您的鏈結取得評估集中每個問題的輸出,然後評估相關計量上的每個輸出。 此控管必須盡可能高效,因為您會在每個嘗試改善品質的實驗之後執行評估。
在 Databricks 中,代理程式評估提供與 MLflow 整合的評估控管。
評估集管理
您的評估集是一組活生生的問題,您會在應用程式的開發和生產生命週期過程中對其不斷迭代更新。
在 Databricks 中,您可以將評估集當成差異資料表進行管理。 在使用 MLflow 進行評估時,MLflow 會自動記錄所使用評估集版本的快照集。
實驗追蹤架構
在應用程式開發過程中,您將嘗試眾多不同的實驗。 實驗追蹤架構能讓您記錄每個實驗,並追蹤其計量與其他實驗。
在 Databricks 中,MLflow 提供實驗追蹤功能。
鏈結參數化架構
您嘗試的許多實驗都需要保存鏈結的程式碼常數,同時逐一查看程式碼所使用的各種參數。 您需要可讓您執行此作業的架構。
在 Databricks 中,MLflow 模型組態會提供這些功能。
線上監視
部署之後,您需要一種方式來監視應用程式的健康情況、持續品質、成本和延遲。
在 Databricks 中,模型服務提供應用程式健康情況監視,而 Lakehouse 監視向儀表板提供持續輸出,並監視品質、成本和延遲。