小組 資料科學 程式生命周期的數據擷取和了解階段
本文概述與 Team 資料科學 Process (TDSP) 的數據取得和了解階段相關聯的目標、工作和交付專案。 此程式提供建議的生命週期,讓小組可用來建構數據科學專案。 生命週期概述小組執行的主要階段,通常是反覆執行:
- 商務理解
- 數據擷取和瞭解
- 建 模
- [部署]
- 客戶接受
以下是 TDSP 生命週期的視覺表示法:
目標
數據擷取和了解階段的目標是:
產生清楚與目標變數相關的全新高質量數據集。 在適當的分析環境中找出數據集,讓您的小組準備好進行模型化階段。
開發數據管線的解決方案架構,以定期重新整理和評分數據。
如何完成工作
數據擷取和了解階段有三個主要工作:
將數據內嵌 至目標分析環境。
探索數據 以判斷數據是否可以回答問題。
設定數據管線 來為新的或定期重新整理的數據評分。
內嵌資料
設定程式,將數據從來源位置移至執行分析作業的目標位置,例如定型和預測。
探索資料
在定型模型之前,您需要開發對數據的良好瞭解。 真實世界的數據集通常是嘈雜、遺漏值,或有許多其他差異。 您可以使用數據摘要和視覺效果來稽核數據的品質,並在數據準備好進行模型化之前收集處理數據的資訊。 此程式通常是反覆的。
滿意已清理數據的質量之後,下一個步驟是進一步了解數據中的模式。 此數據分析可協助您為目標選擇及開發適當的預測模型。 判斷數據對應到目標多少。 然後決定您的小組是否有足夠的數據可繼續進行下一個模型化步驟。 同樣地,此程式通常是反覆的。 您可能需要尋找具有更精確或更相關數據的新數據源,以調整先前階段中所識別的數據集。
設定數據管線
除了擷取和清除數據之外,您通常需要設定程式來為新數據評分,或定期重新整理數據,作為進行中學習程式的一部分。 您可以使用資料管線或工作流程來評分數據。 我們建議使用 Azure Data Factory 的管線。
在這個階段中,您會開發資料管線的解決方案架構。 您可以與資料科學專案的下一個階段平行建立管線。 視您的商務需求和整合此解決方案的現有系統條件約束而定,管線可以是:
- 以批次為基礎的
- 串流或即時
- 混合式
與 MLflow 整合
在數據了解階段,您可以使用 MLflow 的實驗追蹤 來追蹤和記錄各種數據前置處理策略和探勘數據分析。
Artifacts
在此階段中,您的小組會提供:
數據質量報告 ,其中包含數據摘要、每個屬性與目標之間的關聯性、變數排名等等。
解決方案架構,例如您的小組用來對新數據執行預測的數據管線圖表或描述。 此圖表也包含管線,以根據新數據重新定型您的模型。 當您使用 TDSP 目錄結構範本時,請將檔案儲存在 項目目錄中。
檢查點決策。 開始進行功能完整的工程和模型建置之前,您可以重新評估專案,以判斷預期的值是否足以繼續執行。 例如,您可能準備好繼續進行、需要收集更多數據,或如果您找不到可回答問題的數據,則放棄專案。
同行審查的文學
研究人員在同行審查的文獻中發表了有關 TDSP 的研究。 引 文 提供機會來調查 TDSP 的其他應用程式或類似想法,包括數據擷取和瞭解生命周期階段。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- 標記 Tabladillo |資深雲端解決方案架構師
若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。
相關資源
這些文章說明 TDSP 生命週期的其他階段: