Team 資料科學 Process 中的角色和工作
Team 資料科學 Process (TDSP) 是由 Microsoft 所開發的架構,可提供結構化方法來有效率地建置預測性分析解決方案和智慧型手機應用程式。 本文概述數據科學小組針對此程式進行標準化的重要人員角色和相關聯工作。
建議使用 Git 相容的環境來補充儲存在 Azure 機器學習 中的 MLflow 成品。 Azure 機器學習 與 Git 存放庫整合,因此您可以使用許多 Git 相容服務,例如 GitHub、GitLab、Bitbucket、Azure DevOps 或任何其他 Git 相容服務。
數據科學群組和小組的結構
企業中的數據科學功能通常會組織在下列階層中:
- 數據科學群組
- 群組中的數據科學小組
在這類結構中,有群組潛在客戶和小組負責人。 一般而言,數據科學小組會執行數據科學專案。 數據科學小組具有專案管理和控管工作的項目負責人,以及個別的數據科學家和工程師來執行專案的數據科學和數據工程部分。 群組、小組或項目負責人會執行初始項目設定和治理。
四個 TDSP 角色的定義和工作
假設數據科學單元是由群組內的小組所組成,TDSP 人員有四個不同的角色:
群組管理員:管理企業中的整個數據科學單位。 數據科學單位可能有多個小組,每個小組都適用於不同商務領域的多個數據科學專案。 群組管理員可能會將其工作委派給代理,但與角色相關聯的工作不會變更。
小組負責人:管理企業數據科學單元中的小組。 小組由數據科學家組成。 對於小型數據科學單元,小組經理和小組負責人可能相同。
項目負責人:管理特定數據科學專案中個別數據科學家的每日活動。
項目個別參與者:數據科學家、商務分析師、數據工程師、架構設計人員,以及執行數據科學專案的其他人。
注意
視企業的結構和大小而定,單一人員可能有一個以上的角色,或一個以上的人員可能會填滿角色。
四個角色的工作
下圖顯示每個 TDSP 角色的最上層工作。 此概觀和每個 TDSP 角色工作的下列詳細大綱,可協助您根據責任選擇所需的教學課程。
群組管理員工作
群組管理員或指定的 TDSP 系統管理員會完成下列工作,以採用 TDSP:
建立 Azure DevOps 組織和 組織內的群組專案。
在 Azure DevOps 群組專案中建立 專案範本存放庫 ,並從Microsoft TDSP 小組開發的專案範本存放庫植入它。 Microsoft TDSP 專案範本存放庫提供:
- 標準化目錄結構,包括數據、程式代碼和文件的目錄。
- 一組 標準化的檔範本 ,可引導有效率的數據科學程式。
建立 公用程式存放庫,並從Microsoft TDSP 小組開發的公用程式存放庫植入它。 來自 Microsoft 的 TDSP 公用程式存放庫提供一組實用的公用程式,讓數據科學家的工作更有效率。 Microsoft公用程式存放庫包含互動式數據探索、分析、報告和基準模型化和報告的公用程式。
設定 組織帳戶的安全性控制原則 。
如需詳細資訊,請參閱 數據科學小組的群組管理員工作。
小組領導工作
小組負責人或指定的專案管理員會完成下列工作,以採用 TDSP:
在群組的 Azure DevOps 組織中建立小組 專案 。
在 專案中建立專案範本存放庫 ,並將它植入群組管理員或委派所設定的群組專案範本存放庫。
建立小組公用程式存放庫、從群組公用程式存放庫植入它,並將小組特定的公用程式新增至存放庫。
選擇性地建立 Azure 檔案記憶體 ,以儲存小組的實用數據資產。 其他小組成員可以在分析桌面上掛接此共用雲端檔案存放區。
選擇性地將 Azure 檔案儲存體 掛接在小組的數據科學虛擬機上,並將小組數據資產新增至該虛擬機。
新增小組成員並設定其許可權,以設定 安全性控制 。
如需詳細資訊,請參閱 數據科學小組的小組領導工作。
項目潛在客戶工作
項目負責人會完成下列工作,以採用 TDSP:
在 Team 專案中建立 專案存放庫,並從專案範本存放庫 植入它。
選擇性地建立 Azure 檔案記憶體 來儲存專案的數據資產。
選擇性地將 Azure 檔案儲存體 掛接至數據科學虛擬機,並將專案數據資產新增至其中。
新增專案成員並設定其許可權,以設定 安全性控制 。
如需詳細資訊,請參閱 數據科學小組的專案潛在客戶工作。
項目個別參與者工作
項目個別參與者通常是數據科學家,使用 TDSP 執行下列工作:
複製項目負責人所設定的專案存放庫。
選擇性地在其數據科學虛擬機上掛接共用小組和專案 Azure 檔案記憶體。
執行專案。
如需詳細資訊,請參閱 數據科學小組的專案個別參與者工作。
數據科學專案執行工作流程
數據科學家、項目負責人和小組負責人可以建立工作專案,以追蹤專案從頭到尾的所有工作和階段。 下圖概述專案執行的 TDSP 工作流程:
工作流程步驟可以分成三個活動:
項目負責人進行短期衝刺規劃。
數據科學家在分支上
git
開發成品,以解決工作專案。項目負責人或其他小組成員會執行程式碼檢閱,並將工作分支合併至主要分支。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- 標記 Tabladillo |資深雲端解決方案架構師
若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。