監視的設計
在機器學習作業 (MLOps) 結構中,您應該思考如何監視機器學習解決方案。
監視在任何 MLOps 環境中都很有幫助。 您會想要監視模型、資料和基礎結構以收集計量,協助您決定任何必要的後續步驟。
監視模型
最常見的情況是,您想要監視模型的效能。 在開發期間,您會使用 MLflow 來定型和追蹤您的機器學習模型。 根據您定型的模型,您可以使用不同的計量來評估模型是否如預期般執行。
若要在生產環境中監視模型,您可以使用定型的模型,在一小部分的新傳入資料上產生預測。 藉由產生該測試資料的效能計量,您可以確認模型是否能達到其目標。
此外,您也可以監視任何負責任人工智慧 (AI) 問題。 例如,模型是否進行公平預測。
在監視模型之前,請務必決定您想要監視的效能計量,以及每個計量的基準應該為何。 何時應收到警示,指出模型不再正確?
監視資料
您通常會使用歷程記錄資料集來定型機器學習模型,其代表部署時您的模型收到的新資料。 不過,經過一段時間後,可能會有變更資料設定檔的趨勢,讓您的模型較不準確。
例如,假設模型已定型為根據汽缸數、引擎大小、重量和其他特徵來預測汽車的預期汽油里程數。 經過一段時間後,隨著汽車製造和引擎技術的進步,車輛的一般燃料效率可能會大幅改善;使得根據舊資料定型所做的模型預測較不準確。
目前與定型資料之間資料設定檔中的這項變更稱為資料漂移,對於生產環境中所使用的預測性模型而言,這可能是很大的問題。 因此,能夠隨時間監視資料漂移,並視需要重新定型模型以維持預測的正確性是很重要的。
監視基礎結構
監視模型和資料之外,您也應該監視基礎結構,將成本降至最低並最佳化效能。
在整個機器學習生命週期中,您會使用計算來定型和部署模型。 使用雲端中的機器學習專案,計算可能是其中一個最多費用的項目。 因此,您想要監視您是否有效率地使用計算。
例如,您可以在定型期間和部署期間監視計算的計算使用率。 藉由檢閱計算使用率,您知道是否可以縮小已佈建的計算,或是否需要擴增以避免容量限制。