Funções e tarefas no Processo de Ciência de Dados da Equipe
O Team Data Science Process (TDSP) é uma estrutura desenvolvida pela Microsoft que fornece uma metodologia estruturada para construir eficientemente soluções de análise preditiva e aplicações inteligentes. Este artigo descreve as principais funções de pessoal e tarefas associadas para uma equipe de ciência de dados padronizando esse processo.
Um ambiente compatível com Git é sugerido para complementar os artefatos MLflow armazenados no Azure Machine Learning. O Azure Machine Learning integra-se com repositórios Git, para que possa utilizar muitos serviços compatíveis com Git, tais como GitHub, GitLab, Bitbucket, Azure DevOps ou qualquer outro serviço compatível com Git.
Estrutura de grupos e equipas de ciência de dados
As funções de ciência de dados nas empresas geralmente são organizadas na seguinte hierarquia:
- Grupo de ciência de dados
- Equipes de ciência de dados dentro do grupo
Em tal estrutura, há líderes de grupo e líderes de equipe. Normalmente, uma equipe de ciência de dados realiza um projeto de ciência de dados. As equipes de ciência de dados têm líderes de projeto para tarefas de gerenciamento e governança de projetos e cientistas e engenheiros de dados individuais para executar as partes de ciência de dados e engenharia de dados do projeto. O grupo, a equipe ou os líderes de projeto executam a configuração e a governança iniciais do projeto.
Definição e tarefas para as quatro funções TDSP
Com a suposição de que a unidade de ciência de dados consiste em equipes dentro de um grupo, há quatro funções distintas para o pessoal do TDSP:
Gerente de grupo: gerencia toda a unidade de ciência de dados em uma empresa. Uma unidade de ciência de dados pode ter várias equipes, cada uma das quais trabalha em vários projetos de ciência de dados em áreas de negócios distintas. Um gerente de grupo pode delegar suas tarefas a um substituto, mas as tarefas associadas à função não mudam.
Líder de equipe: gerencia uma equipe na unidade de ciência de dados de uma empresa. Uma equipa é composta por cientistas de dados. Para uma pequena unidade de ciência de dados, o gerente do grupo e o líder da equipe podem ser a mesma pessoa.
Líder de projeto: gerencia as atividades diárias de cientistas de dados individuais em um projeto específico de ciência de dados.
Colaboradores individuais do projeto: cientistas de dados, analistas de negócios, engenheiros de dados, arquitetos e outros que executam um projeto de ciência de dados.
Nota
Dependendo da estrutura e do tamanho de uma empresa, uma única pessoa pode ter mais de uma função, ou mais de uma pessoa pode preencher uma função.
Tarefas para as quatro funções
O diagrama a seguir mostra as tarefas de nível superior para cada função TDSP. Esta visão geral e o seguinte esboço detalhado de tarefas para cada função TDSP podem ajudá-lo a escolher o tutorial que você precisa com base em suas responsabilidades.
Tarefas do gestor de grupo
O gerente de grupo ou um administrador de sistema TDSP designado conclui as seguintes tarefas para adotar o TDSP:
Cria uma organização do Azure DevOps e um projeto de grupo dentro da organização.
Cria um repositório de modelo de projeto no projeto de grupo do Azure DevOps e o semeia do repositório de modelo de projeto desenvolvido pela equipe Microsoft TDSP. O repositório de modelo de projeto Microsoft TDSP fornece:
- Uma estrutura de diretórios padronizada, incluindo diretórios para dados, código e documentos.
- Um conjunto de modelos de documentos padronizados para orientar um processo eficiente de ciência de dados.
Cria um repositório de utilitários e o semeia a partir do repositório de utilitários desenvolvido pela equipe Microsoft TDSP. O repositório de utilitários TDSP da Microsoft fornece um conjunto de utilitários úteis para tornar o trabalho de um cientista de dados mais eficiente. O repositório de utilitários da Microsoft inclui utilitários para exploração interativa de dados, análise, relatórios e modelagem e relatórios de linha de base.
Configura a política de controle de segurança para a conta da organização.
Para obter mais informações, consulte Tarefas do gerente de grupo para uma equipe de ciência de dados.
Tarefas de liderança de equipe
O líder da equipe ou um administrador de projeto designado conclui as seguintes tarefas para adotar o TDSP:
Cria um projeto de equipe na organização do Azure DevOps do grupo.
Cria o repositório de modelo de projeto no projeto e o semeia do repositório de modelo de projeto de grupo configurado pelo gerente ou delegado do grupo.
Cria o repositório do utilitário de equipe, propaga-o a partir do repositório do utilitário de grupo e adiciona utilitários específicos da equipe ao repositório.
Opcionalmente, cria o armazenamento de arquivos do Azure para armazenar ativos de dados úteis para a equipe. Outros membros da equipe podem montar esse armazenamento de arquivos compartilhado na nuvem em seus desktops de análise.
Opcionalmente, monta os Arquivos do Azure na máquina virtual de ciência de dados da equipe e adiciona ativos de dados da equipe a ela.
Configura o controle de segurança adicionando membros da equipe e configurando suas permissões.
Para obter mais informações, consulte Tarefas de liderança de equipe para uma equipe de ciência de dados.
Tarefas de liderança de projeto
O líder do projeto realiza as seguintes tarefas para adotar o TDSP:
Cria um repositório de projeto no projeto de equipe e o semeia a partir do repositório de modelo de projeto.
Opcionalmente, cria o armazenamento de arquivos do Azure para armazenar os ativos de dados do projeto.
Opcionalmente, monta os Arquivos do Azure na máquina virtual de ciência de dados e adiciona ativos de dados do projeto a ela.
Configura o controle de segurança adicionando membros do projeto e configurando suas permissões.
Para obter mais informações, consulte Tarefas de liderança de projeto para uma equipe de ciência de dados.
Tarefas individuais do contribuidor do projeto
O contribuidor individual do projeto, geralmente um cientista de dados, realiza as seguintes tarefas usando o TDSP:
Clones o repositório do projeto configurado pelo líder do projeto.
Opcionalmente, monta a equipe compartilhada e o armazenamento de arquivos do Azure do projeto em sua máquina virtual de ciência de dados.
Executa o projeto.
Para obter mais informações, consulte Tarefas de colaborador individual do projeto para uma equipe de ciência de dados.
Fluxo de trabalho de execução de projetos de ciência de dados
Cientistas de dados, líderes de projeto e líderes de equipe podem criar itens de trabalho para acompanhar todas as tarefas e etapas do projeto, do início ao fim. A figura a seguir descreve o fluxo de trabalho TDSP para a execução do projeto:
As etapas do fluxo de trabalho podem ser agrupadas em três atividades:
Os líderes de projeto conduzem o planejamento de sprint.
Os cientistas de dados desenvolvem artefatos em
git
ramificações para abordar itens de trabalho.Os líderes de projeto ou outros membros da equipe fazem revisões de código e mesclam ramificações de trabalho com a ramificação principal.
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Mark Tabladillo - Brasil | Arquiteto de Soluções Cloud Sênior
Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.