Gerenciar o controle do código-fonte das soluções do Azure Data Factory
Por padrão, a experiência de interface do usuário (UX) do Azure Data Factory é autorizada diretamente no serviço de fábrica de dados. Esta experiência tem as seguintes limitações:
- O serviço Data Factory não inclui um repositório para armazenar as entidades JSON para suas alterações. A única maneira de salvar as alterações é através do botão Publicar tudo e todas as alterações são publicadas diretamente no serviço de fábrica de dados.
- O serviço Data Factory não está otimizado para colaboração e controle de versão.
Para fornecer uma melhor experiência de criação, o Azure Data Factory permite configurar um repositório Git com o Azure Repos ou o GitHub. O Git é um sistema de controlo de versões que permite uma colaboração e controlo de alterações mais fáceis. Este artigo descreverá como configurar e trabalhar em um repositório git, além de destacar as práticas recomendadas e um guia de solução de problemas.
Nota
A criação diretamente com o serviço Data Factory é desabilitada na experiência do usuário do Azure Data Factory quando um repositório Git é configurado. As alterações feitas via PowerShell ou SDK são publicadas diretamente no serviço Data Factory e não são inseridas no Git.
Vantagens da integração no Git
Abaixo está uma lista de algumas das vantagens que a integração git oferece para a experiência de criação:
- Controle do código-fonte: À medida que as cargas de trabalho do data factory se tornam cruciais, convém integrar sua fábrica ao Git para aproveitar vários benefícios do controle do código-fonte, como os seguintes:
- Capacidade de rastrear/auditar alterações.
- Capacidade de reverter alterações que introduziram bugs.
- Salvamentos parciais: ao criar no serviço de data factory, não é possível salvar as alterações como rascunho e todas as publicações devem passar pela validação do data factory. Se seus pipelines não estiverem concluídos ou se você simplesmente não quiser perder alterações se o computador falhar, a integração do git permite alterações incrementais dos recursos do data factory, independentemente do estado em que se encontram. Configurar um repositório git permite que você salve as alterações, permitindo que você publique apenas quando tiver testado suas alterações para sua satisfação.
- Colaboração e controle: se você tiver vários membros da equipe contribuindo para a mesma fábrica, convém permitir que seus colegas colaborem uns com os outros por meio de um processo de revisão de código. Você também pode configurar sua fábrica de modo que nem todos os colaboradores tenham permissões iguais. Alguns membros da equipe só podem ter permissão para fazer alterações via Git e apenas certas pessoas da equipe podem publicar as alterações na fábrica.
- Melhor CI/CD: Se você estiver implantando em vários ambientes com um processo de entrega contínua, a integração do git facilitará certas ações. Algumas dessas ações incluem:
- Configure seu pipeline de liberação para ser acionado automaticamente assim que houver alterações feitas em sua fábrica de 'dev'.
- Personalize as propriedades em sua fábrica que estão disponíveis como parâmetros no modelo do Gerenciador de Recursos. Pode ser útil manter apenas o conjunto necessário de propriedades como parâmetros e ter todo o resto codificado.
- Melhor desempenho: uma fábrica média com integração git carrega 10 vezes mais rápido do que uma criação em relação ao serviço de data factory. Essa melhoria de desempenho ocorre porque os recursos são baixados via Git.
Conectar-se a um repositório Git
Há três maneiras diferentes de conectar um repositório Git à sua fábrica de dados para o Azure Repos e o GitHub. Depois de se conectar a um repositório Git, você pode visualizar e gerenciar sua configuração no hub de gerenciamento em Configuração do Git na seção Controle do código-fonte.
Método de configuração 1: Página inicial
Na home page do Azure Data Factory, selecione Configurar Repositório de Código.
Método de configuração 2: Criação de tela
Na tela de criação de UX do Azure Data Factory, selecione o menu suspenso Data Factory e selecione Configurar Repositório de Código.
Método de configuração 3: Hub de gerenciamento
Vá para o hub de gerenciamento na UX do Azure Data Factory. Selecione Configuração do Git na seção Controle do código-fonte. Se você não tiver nenhum repositório conectado, clique em Configurar repositório de código.
Controlo de versões
Os sistemas de controle de versão (também conhecidos como controle do código-fonte) permitem que os desenvolvedores colaborem no código e rastreiem as alterações feitas na base de código. O controle do código-fonte é uma ferramenta essencial para projetos de vários desenvolvedores.
Criando ramificações de recursos
Cada repositório Git do Azure Repos associado a uma fábrica de dados tem uma ramificação de colaboração. main
( é a ramificação de colaboração padrão). Os usuários também podem criar ramificações de recursos clicando em + Nova ramificação na lista suspensa de ramificação. Quando o novo painel de ramificação aparecer, insira o nome da ramificação de recurso.
Quando estiver pronto para mesclar as alterações da ramificação de recurso para a ramificação de colaboração, clique na lista suspensa de ramificação e selecione Criar solicitação pull. Esta ação leva você ao Azure Repos Git, onde você pode gerar solicitações pull, fazer revisões de código e mesclar alterações em sua ramificação de colaboração. Você só tem permissão para publicar no serviço Data Factory a partir de sua ramificação de colaboração.
Definir definições de publicação
Por padrão, o data factory gera os modelos do Gerenciador de Recursos da fábrica publicada e os salva em uma ramificação chamada adf_publish
. Para configurar uma ramificação de publicação personalizada, adicione um publish_config.json
arquivo à pasta raiz na ramificação de colaboração. Ao publicar, o Azure Data Factory lê esse arquivo, procura o campo publishBranch
e salva todos os modelos do Gerenciador de Recursos no local especificado. Se a ramificação não existir, o data factory a criará automaticamente. E exemplo de como esse arquivo se parece está abaixo:
{
"publishBranch": "factory/adf_publish"
}
O Azure Data Factory só pode ter uma ramificação de publicação de cada vez. Quando você especifica uma nova ramificação de publicação, o Data Factory não exclui a ramificação de publicação anterior. Se você quiser remover a ramificação de publicação anterior, exclua-a manualmente.
Nota
O Data Factory só lê o publish_config.json
arquivo quando carrega a fábrica. Se você já tiver a fábrica carregada no portal, atualize o navegador para que as alterações entrem em vigor.
Publicar alterações de código
Depois de mesclar as alterações na ramificação de colaboração, clique em Publicar para publicar manualmente as alterações de código na ramificação de colaboração no serviço Data Factory.
Um painel lateral será aberto onde você confirmar que a ramificação de publicação e as alterações pendentes estão corretas. Depois de verificar as alterações, clique em OK para confirmar a publicação.
Importante
A ramificação de colaboração não é representativa do que é implantado no serviço Data Factory. A ramificação de colaboração deve ser publicada manualmente no serviço Data Factory.
Práticas recomendadas para integração com Git
Permissões
Normalmente, você não quer que todos os membros da equipe tenham permissões para atualizar o Data Factory. As seguintes configurações de permissões são recomendadas:
- Todos os membros da equipe devem ter permissões de leitura para o Data Factory.
- Apenas um conjunto selecionado de pessoas deve ter permissão para publicar no Data Factory. Para fazer isso, eles devem ter a função de colaborador do Data Factory no Grupo de Recursos que contém o Data Factory.
É recomendável não permitir check-ins diretos na ramificação de colaboração. Essa restrição pode ajudar a evitar bugs, pois cada check-in passará por um processo de revisão de solicitação pull.
Usando senhas do Cofre de Chaves do Azure
É recomendável usar o Azure Key Vault para armazenar cadeias de conexão ou senhas ou autenticação de identidade gerenciada para os Serviços Vinculados do Data Factory. Por razões de segurança, o data factory não armazena segredos no Git. Quaisquer alterações aos Serviços Vinculados que contenham segredos, como senhas, são publicadas imediatamente no serviço Azure Data Factory.
O uso do Cofre da Chave ou da autenticação MSI também facilita a integração e a implantação contínuas, pois você não precisará fornecer esses segredos durante a implantação do modelo do Gerenciador de Recursos.
Alternar para um repositório Git diferente
Para alternar para um repositório Git diferente, vá para a página de configuração do Git no hub de gerenciamento em Controle do código-fonte. Selecione Desligar.
Insira o nome da fábrica de dados e clique em confirmar para remover o repositório Git associado ao seu data factory.
Depois de remover a associação com o repositório atual, você pode definir suas configurações do Git para usar um repositório diferente e, em seguida, importar recursos existentes do Data Factory para o novo repositório.
Importante
Remover a configuração do Git de uma fábrica de dados não exclui nada do repositório. A fábrica conterá todos os recursos publicados. Você pode continuar a editar a fábrica diretamente no serviço.