監視模型品質和端點健康情況
馬賽克 AI 模型服務提供進階工具,以監視模型及其部署的品質和健康情況。 下列 table 是每個可用的監視工具的總覽。
工具 | 說明 | 用途 | 存取權限 |
---|---|---|---|
服務記錄 |
stdout 從服務端點的模型擷取和stderr 串流。 |
適用於在模型部署期間進行偵錯。 用於 print(..., flush=true) 在記錄中立即顯示。 |
使用 [服務 UI] 中的 [ 記錄] 索引標籤 來存取。 記錄會即時串流,並可透過 API 匯出。 |
組建記錄 | 顯示處理程序的輸出,其會自動為服務端點的模型建立生產就緒的 Python 環境。 | 適用於診斷模型部署和相依性問題。 | 在 [記錄] 索引標籤的 [建置記錄] 底下完成提供組建的模型時可用。記錄可以透過 API 導出。 |
端點健康情況計量 | 提供基礎結構計量的深入解析,例如延遲、要求率、錯誤率、CPU 使用量和記憶體使用量。 | 請務必瞭解服務基礎結構的效能和健康情況。 | 在過去 14 天內,服務 UI 中預設為可用。 數據也可以即時串流至可觀察性工具。 |
推斷 tables | 自動將線上預測請求與回應記錄到由 Unity Catalog 管理的 Delta tables,用於 自訂模型。 | 使用此工具來監視和偵錯模型品質或響應、產生定型數據集,或進行合規性稽核。 | 可以透過服務UI的一鍵操作,或透過服務API程式化地啟用現有及新模型的服務端點。 |
已啟用 AI 閘道器的推斷 tables | 針對服務外部模型或提供預配置吞吐量工作負載的端點,將在線預測請求和回應自動記錄到由 Unity Catalog 管理的 Delta tables。 | 使用此工具來監視和偵錯模型品質或響應、產生定型數據集,或進行合規性稽核。 | 當使用服務 UI 或 REST API 啟用 AI 閘道 功能時,可以針對現有和新模型提供端點啟用。 |