TDSP 是一種敏捷且反覆的數據科學方法,可用來有效率地提供預測性分析解決方案和 AI 應用程式。 TDSP 藉由建議小組角色的最佳合作方式來加強小組共同作業和學習。 TDSP 結合了來自Microsoft和其他業界領導者的最佳做法和架構,以協助小組有效地實作數據科學計劃。 TDSP 可讓您完全瞭解分析計劃的優點。
本文提供 TDSP 及其主要元件的概觀。 它提供如何使用Microsoft工具和基礎結構來實作 TDSP 的指引。 您可以在整個文章中找到更詳細的資源。
TDSP 的主要元件
TDSP 具有下列重要元件:
- 數據科學生命周期 定義
- 標準化項目結構
- 適用於數據科學專案的基礎結構和資源
- 負責任 AI:以及由道德原則推動的 AI 進步承諾
資料科學生命週期
TDSP 提供一個生命週期,可讓您用來建構數據科學項目的開發。 生命週期概述成功專案遵循的完整步驟。
您可以將以工作為基礎的 TDSP 與其他數據科學生命周期結合,例如數據採礦的跨產業標準程式(CRISP-DM)、資料庫 (KDD) 程式中的知識探索,或其他自定義程式。 概括而言,這些不同的方法有很多共同點。
如果您有屬於智慧型手機應用程式一部分的數據科學專案,請使用此生命週期。 智慧型手機應用程式會部署機器學習或 AI 模型以進行預測性分析。 您也可以使用此程式來探索資料科學專案和即興分析專案。
TDSP 生命週期包含小組反覆執行的五個主要階段。 這些階段包含:
以下是 TDSP 生命週期的視覺表示法:
如需每個階段之目標、工作和檔成品的詳細資訊,請參閱 TDSP 生命週期。
這些工作和成品會與專案角色一致,例如:
- 解決方案架構師
- 專案經理
- 資料工程師
- 資料科學家
- 應用程式開發人員
- 專案負責人
下圖顯示工作(藍色)和成品(以綠色表示),這些工作會對應至水平軸上描述之生命週期的每個階段,以及垂直軸上描述的角色。
標準化項目結構
您的小組可以使用 Azure 基礎結構來組織數據科學資產。
Azure 機器學習 支持開放原始碼 MLflow。 建議您使用 MLflow 進行數據科學和 AI 專案管理。 MLflow 的設計目的是要管理完整的機器學習生命週期。 它會在不同的平臺上定型和提供模型,因此不論實驗執行的位置為何,您都可以使用一組一致的工具。 您可以在本機電腦上、遠端計算目標、虛擬機或機器學習計算實例上使用 MLflow。
MLflow 是由數個主要功能所組成:
追蹤實驗:您可以使用 MLflow 來追蹤實驗,包括參數、程式代碼版本、計量和輸出檔案。 這項功能可協助您比較不同的執行,並有效率地管理實驗程式。
套件程式代碼:它提供標準化格式來封裝機器學習程序代碼,其中包含相依性和組態。 此封裝可讓您更輕鬆地重現執行,並與其他人共享程序代碼。
管理模型:MLflow 提供管理和版本模型的功能。 它支援各種機器學習架構,讓您可以儲存、版本及服務模型。
提供和部署模型:MLflow 整合模型服務與部署功能,讓您可以輕鬆地在各種環境中部署模型。
註冊模型:您可以管理模型的生命週期,其中包括版本設定、階段轉換和批注。 您可以使用 MLflow 在共同作業環境中維護集中式模型存放區。
使用 API 和 UI:在 Azure 內,MLflow 會組合在 機器學習 API 第 2 版內,以便以程式設計方式與系統互動。 您可以使用 Azure 入口網站 與 UI 互動。
MLflow 可簡化機器學習開發程式,從實驗到部署。
機器學習 與 Git 存放庫整合,讓您可以使用 GitHub、GitLab、Bitbucket、Azure DevOps 或其他與 Git 相容的服務。 除了已在 機器學習 中追蹤的資產之外,您的小組還可以在其 Git 相容服務內開發自己的分類法來儲存其他項目數據,例如:
- 文件
- 項目數據:例如,最終項目報表
- 數據報表:例如數據字典或數據品質報表
- 模型:例如模型報表
- 代碼
- 資料準備
- 模型開發
- 作業化,包括安全性和合規性
基礎結構和資源
TDSP 提供如何在下列類別中管理共用分析和記憶體基礎結構的建議:
用來儲存數據集的雲端檔案系統
雲端文件系統對於 TDSP 至關重要,原因有數個:
集中式數據儲存:雲端文件系統提供集中式位置來儲存數據集,這對於數據科學小組成員之間的共同作業至關重要。 集中化可確保所有小組成員都可以存取最新的數據,並降低使用過時或不一致數據集的風險。
延展性:雲端文件系統可以處理大量數據,這在數據科學專案中很常見。 檔系統提供可調整的記憶體解決方案,可隨著專案的需求而成長。 它們可讓小組儲存及處理大型數據集,而不必擔心硬體限制。
輔助功能:使用雲端文件系統,您可以使用因特網連線從任何地方存取數據。 此存取權對於分散式小組或當小組成員需要從遠端工作時很重要。 雲端文件系統可促進順暢的共同作業,並確保數據一律可供存取。
安全性與合規性:雲端提供者通常會實作健全的安全性措施,包括加密、訪問控制,以及符合業界標準和法規。 強式安全性措施可以保護敏感數據,並協助小組符合法律和法規需求。
版本控制:雲端文件系統通常包含版本控制功能,小組可用來追蹤一段時間內數據集的變更。 版本控制對於維護數據的完整性以及在數據科學專案中重現結果至關重要。 它也可協助您稽核並針對所發生任何問題進行疑難解答。
與工具整合:雲端文件系統可與各種數據科學工具和平臺緊密整合。 工具整合支援更容易的數據擷取、數據處理和數據分析。 例如,Azure 儲存體 與 機器學習、Azure Databricks 和其他數據科學工具整合得很好。
共同作業和共用:雲端文件系統可讓您輕鬆地與其他小組成員或專案關係人共用數據集。 這些系統支援共同作業功能,例如共用資料夾和許可權管理。 共同作業功能可促進團隊合作,並確保適當的人員能夠存取所需的數據。
成本效益:雲端文件系統比維護內部部署記憶體解決方案更具成本效益。 雲端提供者具有彈性的定價模式,包括隨用隨付選項,可協助您根據數據科學專案的實際使用量和記憶體需求來管理成本。
災害復原:雲端文件系統通常包含數據備份和災害復原的功能。 這些功能可協助保護數據免於硬體故障、意外刪除和其他災害。 它提供安心,並支持數據科學作業的持續性。
自動化和工作流程整合:雲端儲存系統可以整合到自動化工作流程中,以在數據科學程式的不同階段之間順暢地傳輸數據。 自動化可協助提高效率,並減少管理數據所需的手動工作。
雲端文件系統的建議 Azure 資源
- Azure Blob 儲存體 - Azure Blob 儲存體 的完整檔,這是非結構化數據的可調整物件儲存服務。
- Azure Data Lake Storage - Azure Data Lake Storage Gen2 的相關信息,專為巨量數據分析而設計,並支持大規模的數據集。
- Azure 檔案儲存體 - Azure 檔案儲存體 的詳細數據,可在雲端中提供完全受控的檔案共用。
總而言之,雲端檔系統對於 TDSP 至關重要,因為它們提供可調整、安全且可存取的記憶體解決方案,以支援整個數據生命週期。 雲端文件系統可讓您從各種來源順暢地整合數據,以支援完整的數據擷取和瞭解。 數據科學家可以使用雲端文件系統,有效率地儲存、管理及存取大型數據集。 這項功能對於定型和部署機器學習模型而言非常重要。 這些系統也可藉由讓小組成員在統一環境中同時共用及處理數據,來增強共同作業。 雲端文件系統提供強大的安全性功能,可協助保護數據並使其符合法規需求,這對維護數據完整性和信任至關重要。
雲端資料庫
雲端資料庫在 TDSP 中扮演重要角色,原因有數個:
延展性:雲端資料庫提供可調整的解決方案,可輕易成長以符合專案增加的數據需求。 延展性對於經常處理大型和複雜數據集的數據科學專案而言非常重要。 雲端資料庫可以處理不同的工作負載,而不需要手動介入或硬體升級。
效能優化:開發人員使用自動編製索引、查詢優化和負載平衡等功能,將雲端資料庫優化以達到效能。 這些功能有助於確保數據擷取和處理快速且有效率,這對需要即時或近乎實時數據存取的數據科學工作至關重要。
輔助功能和共同作業:Teams 可以從任何位置存取雲端資料庫中的預存數據。 此輔助功能可促進可能分散地理位置的小組成員之間的共同作業。 輔助功能與共同作業對於遠端工作的分散式小組或人員而言很重要。 雲端資料庫支援啟用同時存取和共同作業的多用戶環境。
與數據科學工具整合:雲端資料庫與各種數據科學工具和平臺緊密整合。 例如,Azure 雲端資料庫與 機器學習、Power BI 和其他數據分析工具整合得很好。 這項整合可簡化數據管線,從擷取和記憶體到分析和視覺效果。
安全性與合規性:雲端提供者會實作健全的安全性措施,包括數據加密、訪問控制,以及符合業界標準和法規。 安全性措施可保護敏感數據,並協助小組符合法律和法規需求。 安全性功能對於維護數據完整性和隱私權至關重要。
成本效益:雲端資料庫通常會以隨用隨付模型運作,比維護內部部署資料庫系統更有成本效益。 此定價彈性可讓組織有效地管理其預算,並只針對所使用的記憶體和計算資源付費。
自動備份和災害復原:雲端資料庫提供自動備份和災害復原解決方案。 如果發生硬體故障、意外刪除或其他災害,這些解決方案有助於防止數據遺失。 可靠性對於維護數據科學專案中的數據持續性和完整性至關重要。
實時數據處理:許多雲端資料庫支援實時數據處理和分析,這對需要最新信息的數據科學工作而言非常重要。 這項功能可協助數據科學家根據最新的可用數據做出及時決策。
數據整合:雲端資料庫可以輕鬆地與其他數據源、資料庫、數據湖和外部數據摘要整合。 整合可協助數據科學家結合來自多個來源的數據,並提供完整的檢視和更複雜的分析。
彈性和多樣性:雲端資料庫採用各種形式,例如關係資料庫、NoSQL 資料庫和數據倉儲。 此品種可讓數據科學小組選擇最適合其特定需求的資料庫類型,無論是需要結構化數據記憶體、非結構化數據處理,還是大規模數據分析。
支援進階分析:雲端資料庫通常隨附進階分析和機器學習的內建支援。 例如,Azure SQL 資料庫 提供內建的機器學習服務。 這些服務可協助數據科學家直接在資料庫環境中執行進階分析。
雲端資料庫的建議 Azure 資源
- Azure SQL 資料庫 - Azure SQL 資料庫 檔,這是完全受控的關係資料庫服務。
- Azure Cosmos DB - Azure Cosmos DB 的相關信息,這是全域散發的多模型資料庫服務。
- 適用於 PostgreSQL 的 Azure 資料庫 - 適用於應用程式開發和部署的受控資料庫服務 適用於 PostgreSQL 的 Azure 資料庫 指南。
- 適用於 MySQL 的 Azure 資料庫 - 適用於 MySQL 資料庫的受控服務 適用於 MySQL 的 Azure 資料庫 詳細數據。
總而言之,雲端資料庫對於 TDSP 至關重要,因為它們提供可調整、可靠且有效率的數據儲存和管理解決方案,以支援數據驅動專案。 它們有助於順暢的數據整合,協助數據科學家從各種來源擷取、前置處理和分析大型數據集。 雲端資料庫可讓您快速查詢和數據處理,這對於開發、測試及部署機器學習模型至關重要。 此外,雲端資料庫也會藉由提供集中式平臺,讓小組成員能夠同時存取及處理數據,藉此加強共同作業。 最後,雲端資料庫提供進階的安全性功能和合規性支援,以保護數據並符合法規標準,這對維護數據完整性和信任至關重要。
使用 SQL 或 Spark 的巨量數據叢集
巨量數據叢集,例如使用 SQL 或 Spark 的叢集,是 TDSP 的基礎,原因有數個:
處理大量數據:巨量數據叢集的設計目的是要有效率地處理大量數據。 數據科學專案通常牽涉到超過傳統資料庫容量的大型數據集。 以 SQL 為基礎的巨量數據叢集和 Spark 可以大規模管理及處理此數據。
分散式運算:巨量數據叢集會使用分散式運算,將數據和計算工作分散到多個節點。 平行處理功能可大幅加速數據處理和分析工作,這對於取得數據科學專案中的及時深入解析至關重要。
延展性:巨量數據叢集藉由增加現有節點的強大功能,以水準方式提供高延展性。 延展性可藉由處理增加的數據大小和複雜度,協助確保數據基礎結構隨著專案的需求而成長。
與數據科學工具整合:巨量數據叢集與各種數據科學工具和平臺整合良好。 例如,Spark 與 Hadoop 緊密整合,而 SQL 叢集會使用各種數據分析工具。 整合有助於從數據擷取到分析和視覺效果的順暢工作流程。
進階分析:巨量數據叢集支援進階分析和機器學習。 例如,Spark 提供下列內建連結庫:
- 機器學習服務,MLlib
- 圖形處理、GraphX
- 串流處理、Spark 串流
這些功能可協助數據科學家直接在叢集中執行複雜的分析。
實時數據處理:巨量數據叢集,特別是使用Spark的巨量數據叢集,支援即時數據處理。 這項功能對於需要最新數據分析和決策的項目至關重要。 實時處理有助於詐騙偵測、即時建議和動態定價等案例。
數據轉換和擷取、轉換、載入 (ETL):巨量數據叢集非常適合用於數據轉換和 ETL 程式。 它們可以有效率地處理複雜的數據轉換、清除和匯總工作,這些工作通常是必要的,才能分析數據。
成本效益:巨量數據叢集可以符合成本效益,特別是當您使用 Azure Databricks 和其他雲端服務等雲端式解決方案時。 這些服務提供彈性的定價模式,包括隨用隨付,比維護內部部署巨量數據基礎結構更具經濟效益。
容錯:巨量數據叢集的設計考慮到容錯。 它們會跨節點複寫數據,以協助確保即使某些節點失敗,系統仍可正常運作。 這項可靠性對於維護數據科學專案中的數據完整性和可用性至關重要。
Data Lake 整合:巨量數據叢集通常會與 Data Lake 緊密整合,讓數據科學家能夠以統一的方式存取和分析各種數據源。 整合藉由支持結構化和非結構化數據的組合,促進更全面的分析。
SQL 型處理:對於熟悉 SQL 的數據科學家,使用 SQL 查詢的巨量數據叢集,例如 Spark SQL 或 Hadoop 上的 SQL,提供熟悉的介面來查詢和分析巨量數據。 這種易於使用可加速分析程式,並讓更廣泛的使用者更容易存取。
共同作業和共用:巨量數據叢集支援共同作業環境,讓多個數據科學家和分析師可以在相同的數據集上共同作業。 它們提供共用程式代碼、筆記本和結果的功能,可促進團隊合作和知識共用。
安全性與合規性:巨量數據叢集提供強大的安全性功能,例如數據加密、訪問控制,以及業界標準的合規性。 安全性功能可保護敏感數據,並協助小組符合法規需求。
巨量數據叢集的建議 Azure 資源
- 機器學習 中的 Apache Spark:機器學習 與 Azure Synapse Analytics 整合可讓您透過 Apache Spark 架構輕鬆存取分散式計算資源。
- Azure Synapse Analytics:Azure Synapse Analytics 的完整檔,可整合巨量數據和數據倉儲。
總而言之,不論 SQL 還是 Spark,巨量數據叢集對於 TDSP 都很重要,因為它們提供有效處理大量數據所需的計算能力和延展性。 巨量數據叢集可讓數據科學家對大型數據集執行複雜的查詢和進階分析,以利深入解析和精確的模型開發。 當您使用分散式運算時,這些叢集會啟用快速數據處理和分析,以加速整體數據科學工作流程。 巨量數據叢集也支援與各種數據源和工具的無縫整合,以增強從多個環境內嵌、處理和分析數據的能力。 巨量數據叢集也可藉由提供統一的平臺,讓小組能夠有效地共用資源、工作流程和結果,來提升共同作業和重現性。
AI 與機器學習服務
基於數個原因,AI 和機器學習服務是 TDSP 不可或缺的一部分:
進階分析:AI 和 ML 服務可啟用進階分析。 數據科學家可以使用進階分析來找出複雜的模式、進行預測,以及產生傳統分析方法無法取得的見解。 這些進階功能對於建立高影響的數據科學解決方案至關重要。
重複工作的自動化:AI 和 ML 服務可以將重複的工作自動化,例如數據清理、特徵工程和模型定型。 自動化可節省時間,並協助數據科學家專注於專案更策略性的層面,進而提升整體生產力。
改善精確度和效能:ML 模型可以藉由學習數據來改善預測和分析的精確度和效能。 當這些模型暴露在更多數據時,這些模型可以持續改善,這會導致更好的決策和更可靠的結果。
延展性:雲端平臺所提供的 AI 和 ML 服務,例如 機器學習,具有高度擴充性。 他們可以處理大量數據和複雜的計算,這可協助數據科學小組調整其解決方案,以滿足不斷增長的需求,而不必擔心基礎結構的限制。
與其他工具整合:AI 和 ML 服務與Microsoft生態系統中的其他工具和服務緊密整合,例如 Azure Data Lake、Azure Databricks 和 Power BI。 整合支援從數據擷取和處理到模型部署和視覺效果的簡化工作流程。
模型部署和管理:AI 和 ML 服務提供強大的工具,可在生產環境中部署和管理機器學習模型。 版本控制、監視和自動化重新定型等功能可協助確保模型在一段時間內保持正確且有效。 此方法可簡化 ML 解決方案的維護。
實時處理:AI 和 ML 服務支援即時數據處理和決策。 實時處理對於需要立即見解和動作的應用程式而言非常重要,例如詐騙偵測、動態定價和建議系統。
可自定義性和彈性:AI 和 ML 服務提供一系列可自定義的選項,從預先建置的模型和 API 到從頭開始建置自定義模型的架構。 這種彈性可協助數據科學小組針對特定商務需求和使用案例量身打造解決方案。
存取尖端演算法:AI 和 ML 服務可讓數據科學家存取領先研究人員開發的尖端演算法和技術。 存取可確保小組可以針對其專案使用 AI 和 ML 的最新進展。
共同作業和共用:AI 和 ML 平台支援共同作業開發環境,讓多個小組成員可以一起處理相同的專案、共用程式碼和重現實驗。 共同作業可加強團隊合作,並協助確保模型開發的一致性。
成本效益:雲端上的 AI 和 ML 服務比建置和維護內部部署解決方案更有成本效益。 雲端提供者有彈性的定價模式,包括隨用隨付選項,可降低成本並優化資源使用量。
增強的安全性與合規性:AI 和 ML 服務隨附強大的安全性功能,包括數據加密、安全存取控制,以及符合業界標準和法規。 這些功能有助於保護您的數據和模型,並符合法律和法規需求。
預先建置的模型和 API:許多 AI 和 ML 服務會針對自然語言處理、影像辨識和異常偵測等常見工作提供預先建置的模型和 API。 預先建置的解決方案可以加速開發和部署,並協助小組快速將 AI 功能整合到其應用程式中。
實驗和原型設計:AI 和 ML 平臺提供快速實驗和原型設計的環境。 數據科學家可以快速測試不同的演算法、參數和數據集,以找出最佳的解決方案。 實驗和原型設計支援模型開發的反覆方法。
適用於 AI 和 ML 服務的建議 Azure 資源
機器學習 是我們建議用於數據科學應用程式和 TDSP 的主要資源。 此外,Azure 也提供 AI 服務,讓特定應用程式具備現成可用的 AI 模型。
- 機器學習:涵蓋設定、模型定型、部署等 機器學習 的主要文件頁面。
- Azure AI 服務:針對視覺、語音、語言和決策工作提供預先建置 AI 模型的 AI 服務資訊。
總而言之,AI 和 ML 服務對於 TDSP 至關重要,因為它們提供功能強大的工具和架構,可簡化機器學習模型的開發、定型和部署。 這些服務會將演算法選取和超參數微調等複雜工作自動化,這可大幅加速模型開發程式。 這些服務也提供可調整的基礎結構,可協助數據科學家有效率地處理大型數據集和需要大量計算的工作。 AI 和 ML 工具與其他 Azure 服務緊密整合,並增強數據擷取、前置處理和模型部署。 整合有助於確保順暢的端對端工作流程。 此外,這些服務也會促進共同作業和重現性。 Teams 可以分享見解,並有效地實驗結果和模型,同時維持高標準的安全性和合規性。
負責 AI
使用 AI 或 ML 解決方案,Microsoft 在其 AI 和 ML 解決方案中推廣 負責任的 AI 工具 。 這些工具支援 Microsoft負責任 AI 標準。 您的工作負載仍必須個別解決 AI 相關損害。
同行檢閱的引文
TDSP 是一種完善的方法,小組會跨Microsoft參與使用。 TDSP 在同行審查的文獻中記錄和研究。 引文提供調查 TDSP 功能和應用程式的機會。 如需詳細資訊和引文清單,請參閱 TDSP 生命週期。