Adicionar parâmetros a componentes de data factory

7 minutos

Parametrizar serviços vinculados no Azure Data Factory

Dentro do Azure Data Factory, é possível parametrizar um serviço vinculado no qual você pode passar valores dinâmicos enquanto estiver no runtime. Um caso de uso para esse cenário pode ser conectar-se a vários bancos de dados diferentes que estão no mesmo SQL Server, em que você pode pensar em parametrizar o nome do banco de dados na definição de serviço vinculado. O benefício disso é que você não precisa criar nenhum serviço vinculado para cada banco de dados que está no mesmo SQL Server.

Também é possível parametrizar outras propriedades do serviço vinculado, como um nome de usuário.

Se você decidir parametrizar os serviços vinculados no Azure Data Factory, poderá fazer isso na interface do usuário do Azure Data Factory, no portal do Azure ou em uma interface de programação de sua preferência.

Se você optar por criar o serviço vinculado por meio da interface do usuário, o Data Factory poderá fornecer uma parametrização interna para alguns dos conectores:

Amazon Redshift
Azure Cosmos DB (API de SQL)
Banco de Dados do Azure para MySQL
Banco de Dados SQL do Azure
Azure Synapse Analytics (antigo SQL DW)
MySQL
Oracle
SQL Server
HTTP Genérico
REST Genérico

Se você for até a folha de criação/edição do serviço vinculado, encontrará as opções para a parametrização.

Se você não puder usar a parametrização interna, pois está usando um tipo diferente de conector, poderá editar o JSON por meio da interface do usuário.

No painel de criação/edição do serviço vinculado -> expanda Avançado na parte inferior do painel, marque a caixa de seleção Especificar conteúdo dinâmico no formato JSON e especifique a carga JSON do serviço vinculado.

Ou, depois de criar um serviço vinculado sem parametrização, no hub de Gerenciamento, selecione Serviços vinculados e localize o serviço vinculado específico. Em seguida, selecione {} (botão Código) para editar o JSON.

Parâmetros globais no Azure Data Factory

Configurar parâmetros globais em um pipeline do Azure Data Factory permite que você use essas constantes para consumo em expressões de pipeline. Um caso de uso para definir parâmetros globais é quando você tem vários pipelines em que os nomes e os valores dos parâmetros são idênticos.

Se você usar o processo de CI/CD (implantação contínua e integração contínua) com o Azure Data Factory, os parâmetros globais poderão ser substituídos, se você desejar, para cada ambiente que você criou.

Criar parâmetros globais no Azure Data Factory

Para criar um parâmetro global, vá para a guia Parâmetros globais na seção Gerenciar. Selecione Novo para abrir o painel do menu lateral de criação.

No painel lateral do menu, insira um nome, selecione um tipo de dados e especifique o valor do parâmetro.

Depois que um parâmetro global é criado, você pode editá-lo selecionando o nome do parâmetro. Para alterar vários parâmetros juntos, selecione Editar tudo.

Usar parâmetros globais em um pipeline

Ao usar parâmetros globais em um pipeline no Azure Data Factory, ele é principalmente referenciado em expressões de pipeline. Por exemplo, se um pipeline fizer referência a um recurso como um conjunto de dados ou fluxo de dados, você poderá passar o valor do parâmetro global por meio do parâmetro de recurso. O comando ou a referência de parâmetros globais no Azure Data Factory flui da seguinte maneira: pipeline().globalParameters.<parameterName>.

Parâmetros globais no CI/CD

Há duas maneiras de integrar parâmetros globais em um pipeline usando CI/CD com Azure Data Factory:

Incluir parâmetros globais no modelo do Azure Resource Manager
Implantar parâmetros globais por meio de um script do PowerShell

Na maioria das práticas de CI/CD, é benéfico incluir parâmetros globais no modelo do Azure Resource Manager. É recomendável devido à sua integração nativa com CI/CD, em que parâmetros globais são adicionados como um parâmetro de modelo do Azure Resource Manager. Isso ocorre devido a alterações em vários ambientes que estão trabalhando.

Para habilitar os parâmetros globais em um modelo do Azure Resource Manager, vá para o hub Gerenciamento. Saiba que, após adicionar parâmetros globais a um modelo do Azure Resource Manager, ele adiciona uma configuração no nível do Azure Data Factory, que pode substituir outras configurações, como configs de git.

O caso de uso para implantar parâmetros globais por meio de um script do PowerShell, pode ser porque você talvez tenha as configurações descritas acima habilitadas em um ambiente com privilégios elevados, como UAT ou PROD.

Parametrizar fluxos de dados de mapeamento

No Azure Data Factory, você pode usar o fluxos de dados de mapeamento, que permitem que você use parâmetros. Se você definir parâmetros dentro de uma definição de fluxo de dados, poderá usar os parâmetros em expressões. Os valores de parâmetro serão definidos pelo pipeline de chamada por meio da atividade Execute Data Flow.

Há três opções para definir os valores nas expressões de atividade de fluxo de dados:

Usar a linguagem de expressão do fluxo de controle de pipeline para definir um valor dinâmico.
Usar a linguagem de expressão de fluxo de dados para definir um valor dinâmico.
Usar qualquer linguagem de expressão para definir um valor literal estático.

O motivo para parametrizar os fluxos de dados de mapeamento é garantir que seus fluxos de dados sejam generalizados, flexíveis e reutilizáveis.

Criar parâmetros no fluxo de dados

Para adicionar parâmetros ao fluxo de dados, selecione a parte em branco da tela fluxo de dados para ver as propriedades gerais.

No painel Configurações, você verá uma guia Parâmetro.

Selecione Novo para gerar um parâmetro. Para cada parâmetro, você deve atribuir um nome, selecionar um tipo e, opcionalmente, definir um valor padrão.

Atribuir parâmetros de um pipeline no fluxo de dados de mapeamento

Se você tiver criado um fluxo de dados no qual você definiu parâmetros, será possível executá-lo de um pipeline usando a atividade Executar Fluxo de Dados.

Depois de adicionar a atividade à tela do pipeline, você encontrará os parâmetros do fluxo de dados na guia Parâmetros da atividade.

A atribuição de valores de parâmetro garante que você possa usar os parâmetros em uma linguagem de expressão de pipeline ou linguagem de expressão de fluxo de dados com base em tipos do Spark. Você também pode combinar os dois, ou seja, os parâmetros de expressão de fluxo de dados e pipeline.