Team Data Science Processの役割とタスク
Team Data Science Process (TDSP) は、構造化された手法で予測分析ソリューションと高度なアプリケーションを効率的に構築する Microsoft 開発のフレームワークです。 この記事では、このプロセスを基本とするデータ サイエンス チームの人員の役割と、それに関連した職務の概要について説明します。
Azure Machine Learningに格納されているMLflow成果物を補完するには、Git互換環境が推奨されます。 Azure Machine Learning は Git リポジトリと統合されるため、Git 互換サービス (GitHub、GitLab、Bitbucket、Azure DevOps、その他の Git 互換サービスなど) を使用できます。
データ サイエンス グループおよびチームの構造
多くの場合、企業のデータ サイエンスの職務は次のような階層で組織されます。
- データ サイエンス グループ
- グループ内のデータサイエンスチーム
このような構造では、グループ リーダーとチーム リーダーがいます。 通常、データサイエンスチームはデータサイエンスプロジェクトを実行します。 データ サイエンス チームには、プロジェクト管理とガバナンス タスクを担当するプロジェクト リーダーと、プロジェクトのデータ サイエンスとデータ エンジニアリングの部分を遂行する個々のデータ サイエンティストやエンジニアがいます。 グループ、チーム、またはプロジェクトリーダーは、プロジェクトの初期設定とガバナンスを実行します。
4 つの TDSP の役割の定義と職務
データ サイエンス部がグループ内のチームで構成されていることを前提とした場合、TDSP には次の 4 つの異なる役割があります。
グループマネージャー: 企業のデータサイエンス部門全体を管理します。 データサイエンス部門には複数のチームがあり、それぞれが異なるビジネス領域の複数のデータサイエンスプロジェクトに取り組んでいる場合があります。 グループマネージャーは自分のタスクを代理に委任できますが、ロールに関連付けられているタスクは変わりません。
チームリーダー: 企業のデータサイエンス部門のチームを管理します。 チームはデータサイエンティストで構成されます。 小規模なデータサイエンス部門では、グループマネージャーとチームリーダーが同じ人物である場合があります。
プロジェクトリーダー: 特定のデータサイエンスプロジェクトにおける個々のデータサイエンティストの日常業務を管理します。
プロジェクトの個々の共同作成者: データサイエンスプロジェクトを実行するデータサイエンティスト、ビジネスアナリスト、データエンジニア、アーキテクトなど。
Note
企業の構造と規模に応じて、1人のユーザーが複数のロールを持つ場合や、複数のユーザーが1つのロールを担当する場合があります。
4つのロールのタスク
次の図は、各TDSPロールの最上位のタスクを示しています。 この概要と、各TDSPロールのタスクの詳細な概要は、責任に基づいて必要なチュートリアルを選択するのに役立ちます。
グループ マネージャーのタスク
グループマネージャーまたは指定されたTDSPシステム管理者は、TDSPを採用するために次のタスクを実行します。
組織内に、Azure DevOps 組織およびグループ プロジェクトを作成します。
Azure DevOps グループ プロジェクト内にプロジェクト テンプレート リポジトリを作成し、Microsoft TDSP チームが開発したプロジェクト テンプレート リポジトリからシードします。 Microsoft の TDSP プロジェクト テンプレート リポジトリには、以下があります。
- データ、コード、およびドキュメント ディレクトリなどの標準化されたディレクトリ構造があります。
- データ サイエンス プロセスを効率的に導くための一連の標準化されたドキュメント テンプレートがあります。
ユーティリティ リポジトリを作成し、Microsoft TDSP チームが開発したユーティリティ リポジトリからそれを設定します。 Microsoft の TDSP ユーティリティ リポジトリには、データ サイエンティストの仕事の効率を上げる便利なユーティリティのセットが用意されています。 Microsoft ユーティリティ リポジトリには、対話型のデータ探索、分析、レポート、およびベースラインのモデリングとレポートのためのユーティリティが含まれています。
組織アカウントのセキュリティ制御ポリシーを設定します。
詳細については、 「データサイエンスチームのグループマネージャータスク」 を参照してください。
チームリーダーのタスク
チームリーダーまたは指名されたプロジェクト管理者は、TDSPを採用するために次のタスクを完了します。
グループの Azure DevOps 組織に、チーム プロジェクトを作成します。
プロジェクトにプロジェクトテンプレートリポジトリを作成し、グループマネージャーまたは代理人によって設定されたグループプロジェクトテンプレートリポジトリからシードします。
チーム ユーティリティ リポジトリを作成し、グループ ユーティリティ リポジトリからそれを設定し、そのリポジトリにチーム固有のユーティリティを追加します。
必要に応じて、チームに有用なデータ資産を格納する Azure File Storage を作成します。 他のチーム メンバーは、分析デスクトップにこの共有クラウド ファイル ストアをマウントできます。
必要に応じて、Azure Files をチームの Data Science Virtual Machine に取り付け、それにチーム データ資産を追加します。
チーム メンバーを追加し、アクセス許可を構成して、セキュリティ制御を設定します。
詳細については、データサイエンスチームのチームリーダータスクに関するページを参照してください。
プロジェクトリーダーのタスク
プロジェクトリーダーは、TDSPを採用するために次のタスクを完了します。
チーム プロジェクトにプロジェクト リポジトリを作成し、プロジェクト テンプレート リポジトリからそれを設定します。
必要に応じて、プロジェクトのデータ資産を格納する Azure File Storage を作成します。
必要に応じて、Azure Files をチームの Data Science Virtual Machine に取り付け、それにプロジェクト データ資産を追加します。
プロジェクト メンバーを追加し、アクセス許可を構成して、セキュリティ制御を設定します。
詳細については、 「データサイエンスチームのプロジェクトリーダータスク」 を参照してください。
プロジェクトの個々の共同作成者タスク
プロジェクトの個々の共同作成者 (通常はデータサイエンティスト) は、TDSPを使用して次のタスクを実行します。
プロジェクト リーダーが設定したプロジェクト リポジトリを複製します。
必要に応じて、共有チームとプロジェクトのAzureファイルストレージをデータサイエンス仮想マシンにマウントします。
プロジェクトを実行します。
詳細については、 「データサイエンスチームのプロジェクトの個々の共同作成者タスク」 を参照してください。
データ サイエンス プロジェクトの実行ワークフロー
データサイエンティスト、プロジェクトリーダー、チームリーダーは、プロジェクトのすべてのタスクとステージを最初から最後まで追跡するための作業項目を作成できます。 次の図は、プロジェクトを遂行する TDSP ワークフローの概要です。
このワークフローの手順は、次の 3 つのアクティビティにグループ化できます。
プロジェクトリーダーはスプリント計画を実行します。
データサイエンティストは、作業項目に対処するために
git
ブランチで成果物を開発します。プロジェクトリーダーまたは他のチームメンバーは、コードレビューを行い、作業ブランチをプライマリブランチにマージします。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパル作成者:
- Mark Tabladillo | シニア クラウド ソリューション アーキテクト
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。