監視的設計

在機器學習作業 (MLOps) 結構中，您應該思考如何監視機器學習解決方案。

監視在任何 MLOps 環境中都很有幫助。您會想要監視模型、資料和基礎結構以收集計量，協助您決定任何必要的後續步驟。

監視模型

最常見的情況是，您想要監視模型的效能。在開發期間，您會使用 MLflow 來定型和追蹤您的機器學習模型。根據您定型的模型，您可以使用不同的計量來評估模型是否如預期般執行。

若要在生產環境中監視模型，您可以使用定型的模型，在一小部分的新傳入資料上產生預測。藉由產生該測試資料的效能計量，您可以確認模型是否能達到其目標。

此外，您也可以監視任何負責任人工智慧 (AI) 問題。例如，模型是否進行公平預測。

在監視模型之前，請務必決定您想要監視的效能計量，以及每個計量的基準應該為何。何時應收到警示，指出模型不再正確？

您通常會使用歷程記錄資料集來定型機器學習模型，其代表部署時您的模型收到的新資料。不過，經過一段時間後，可能會有變更資料設定檔的趨勢，讓您的模型較不準確。

例如，假設模型已定型為根據汽缸數、引擎大小、重量和其他特徵來預測汽車的預期汽油里程數。經過一段時間後，隨著汽車製造和引擎技術的進步，車輛的一般燃料效率可能會大幅改善；使得根據舊資料定型所做的模型預測較不準確。

Diagram of different hyperparameter values resulting in different models by performing hyperparameter tuning.

目前與定型資料之間資料設定檔中的這項變更稱為資料漂移，對於生產環境中所使用的預測性模型而言，這可能是很大的問題。因此，能夠隨時間監視資料漂移，並視需要重新定型模型以維持預測的正確性是很重要的。

監視模型和資料之外，您也應該監視基礎結構，將成本降至最低並最佳化效能。

在整個機器學習生命週期中，您會使用計算來定型和部署模型。使用雲端中的機器學習專案，計算可能是其中一個最多費用的項目。因此，您想要監視您是否有效率地使用計算。

例如，您可以在定型期間和部署期間監視計算的計算使用率。藉由檢閱計算使用率，您知道是否可以縮小已佈建的計算，或是否需要擴增以避免容量限制。

提示