팀 데이터 과학 프로세스의 역할 및 작업
TDSP(Team Data Science Process)는 Microsoft에서 개발한 프레임워크로, 예측 분석 솔루션 및 인텔리전트 애플리케이션을 효율적으로 빌드하는 구조적 방법론을 제공합니다. 이 문서에서는 이 프로세스를 표준화하는 데이터 과학팀의 주요 담당자 역할 및 관련 작업을 설명합니다.
Azure Machine Learning에 저장된 MLflow 아티팩트를 보완하기 위해 Git 호환 환경이 권장됩니다. Azure Machine Learning 은 Git 리포지토리와 통합되므로 GitHub, GitLab, Bitbucket, Azure DevOps 또는 기타 Git 호환 서비스와 같은 많은 Git 호환 서비스를 사용할 수 있습니다.
데이터 과학 그룹 및 팀 구조
기업에서 데이터 과학 기능은 종종 다음 계층 구조로 구성됩니다.
- 데이터 과학 그룹
- 그룹 내의 데이터 과학 팀
이러한 구조에는 그룹 리드와 팀 리드가 있습니다. 일반적으로 데이터 과학 팀은 데이터 과학 프로젝트를 수행합니다. 데이터 과학팀에는 프로젝트 리더가 프로젝트 관리 및 거버넌스 작업을 맡고, 개별 데이터 과학자 및 엔지니어가 프로젝트의 데이터 과학 및 데이터 엔지니어링 파트를 수행합니다. 그룹, 팀 또는 프로젝트 리더는 초기 프로젝트 설정 및 거버넌스를 수행합니다.
4가지 TDSP 역할에 대한 정의 및 작업
데이터 과학 단위가 그룹 내의 팀으로 구성되어 있다는 가정하에, TDSP 담당자에게는 다음과 같은 4개의 고유한 역할이 있습니다.
그룹 관리자: 엔터프라이즈의 전체 데이터 과학 단위를 관리합니다. 데이터 과학 단위에는 여러 팀이 있을 수 있으며, 각 팀은 고유한 비즈니스 영역에서 여러 데이터 과학 프로젝트에서 작동합니다. 그룹 관리자는 해당 작업을 서로게이트에 위임할 수 있지만 역할과 관련된 작업은 변경되지 않습니다.
팀 리더: 엔터프라이즈의 데이터 과학 단위에서 팀을 관리합니다. 팀은 데이터 과학자로 구성됩니다. 소규모 데이터 과학 단위의 경우 그룹 관리자와 팀 리더가 동일한 사람이 될 수 있습니다.
프로젝트 책임자: 특정 데이터 과학 프로젝트에서 개별 데이터 과학자의 일상적인 활동을 관리합니다.
프로젝트 개별 기여자: 데이터 과학자, 비즈니스 분석가, 데이터 엔지니어, 설계자 및 데이터 과학 프로젝트를 실행하는 다른 사용자
참고 항목
기업의 구조와 크기에 따라 한 사람이 둘 이상의 역할을 갖거나 둘 이상의 사용자가 역할을 채울 수 있습니다.
4개의 역할에 대한 작업
다음 다이어그램에서는 각 TDSP 역할에 대한 최상위 작업을 보여 줍니다. 이 개요와 각 TDSP 역할에 대한 작업의 다음 세부 개요는 책임에 따라 필요한 자습서를 선택하는 데 도움이 될 수 있습니다.
그룹 관리자 작업
그룹 관리자 또는 지정된 TDSP 시스템 관리자는 TDSP를 채택하기 위해 다음 작업을 완료합니다.
조직 내에 Azure DevOps 조직 및 그룹 프로젝트를 만듭니다.
Azure DevOps 그룹 프로젝트에 프로젝트 템플릿 리포지토리를 만들고 Microsoft TDSP 팀에서 개발한 프로젝트 템플릿 리포지토리에서 시드합니다. Microsoft TDSP 프로젝트 템플릿 리포지토리에서는 다음을 제공합니다.
- 데이터, 코드 및 문서에 대한 디렉터리를 포함하여 표준 디렉터리 구조를 제공합니다.
- 표준 문서 템플릿 세트를 제공하여 효율적인 데이터 과학 프로세스를 안내합니다.
유틸리티 리포지토리를 만들고 Microsoft TDSP 팀에서 개발한 유틸리티 리포지토리에서 시드합니다. Microsoft의 TDSP 유틸리티 리포지토리는 데이터 과학자의 작업 효율을 높일 수 있는 유용한 유틸리티 세트를 제공합니다. Microsoft 유틸리티 리포지토리에는 대화형 데이터 탐색, 분석, 보고, 기준 모델링 및 보고를 위한 유틸리티가 포함되어 있습니다.
조직 계정에 대한 보안 제어 정책을 설정합니다.
자세한 내용은 데이터 과학 팀의 그룹 관리자 작업을 참조 하세요.
팀 리더 작업
팀 리더 또는 지정된 프로젝트 관리자는 TDSP를 채택하기 위해 다음 작업을 완료합니다.
그룹의 Azure DevOps 조직에 팀 프로젝트를 만듭니다.
프로젝트에 프로젝트 템플릿 리포지토리를 만들고 그룹 관리자 또는 대리자가 설정한 그룹 프로젝트 템플릿 리포지토리에서 시드합니다.
팀 유틸리티 리포지토리를 만들어 그룹 유틸리티 리포지토리에서 시드하고 리포지토리에 팀별 유틸리티를 추가합니다.
선택 사항으로 팀에 유용한 데이터 자산을 저장하는 Azure 파일 스토리지를 만듭니다. 다른 팀 구성원도 팀의 분석 데스크톱에 이 공유 클라우드 파일 저장소를 탑재할 수 있습니다.
필요에 따라 팀의 데이터 과학 가상 머신 에 Azure Files를 탑재하고 팀 데이터 자산을 추가합니다.
팀 멤버를 추가하고 권한을 구성하여 보안 제어를 설정합니다.
자세한 내용은 데이터 과학 팀의 팀 리더 작업을 참조 하세요.
프로젝트 리드 작업
프로젝트 리더는 TDSP를 채택하기 위해 다음 작업을 완료합니다.
팀 프로젝트에 프로젝트 리포지토리를 만들고 팀 프로젝트 템플릿 리포지토리에서 시드합니다.
선택 사항으로 프로젝트의 데이터 자산을 저장하는 Azure 파일 스토리지를 만듭니다.
필요에 따라 Azure Files를 데이터 과학 가상 머신에 탑재하고 프로젝트 데이터 자산을 추가합니다.
프로젝트 멤버를 추가하고 권한을 구성하여 보안 제어를 설정합니다.
자세한 내용은 데이터 과학 팀의 프로젝트 리드 작업을 참조 하세요.
프로젝트 개별 기여자 작업
프로젝트 개별 기여자(일반적으로 데이터 과학자)는 TDSP를 사용하여 다음 작업을 수행합니다.
프로젝트 리더가 설정한 프로젝트 리포지토리를 복제합니다.
필요에 따라 공유 팀과 프로젝트 Azure 파일 스토리지를 데이터 과학 가상 머신에 탑재합니다.
프로젝트를 실행합니다.
자세한 내용은 데이터 과학 팀의 프로젝트 개별 기여자 작업을 참조 하세요.
데이터 과학 프로젝트 실행 워크플로
데이터 과학자, 프로젝트 리더 및 팀 리더는 처음부터 끝까지 프로젝트의 모든 작업 및 단계를 추적하는 작업 항목을 만들 수 있습니다. 다음 그림은 TDSP를 사용하여 프로젝트를 실행하는 워크플로를 간략하게 설명합니다.
워크플로 단계는 세 가지 작업으로 그룹화할 수 있습니다.
프로젝트 리더는 스프린트 계획을 수행합니다.
데이터 과학자는 작업 항목을 해결하기 위해 분기에서
git
아티팩트 개발프로젝트 리드 또는 다른 팀 구성원은 코드 검토를 수행하고 작업 분기를 기본 분기에 병합합니다.
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
보안 주체 작성자:
- Mark Tabladillo | 선임 클라우드 솔루션 설계자
비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.