Partilhar via


Escolha a configuração de tempo de execução de integração certa para o seu cenário

O tempo de execução de integração é uma parte importante da infraestrutura para a solução de integração de dados fornecida pelo Azure Data Factory. Isso requer que você considere totalmente como se adaptar à estrutura de rede e à fonte de dados existente no início do projeto da solução, bem como considere o desempenho, a segurança e o custo.

Comparação de diferentes tipos de tempos de execução de integração

No Azure Data Factory, temos três tipos de tempos de execução de integração: o tempo de execução de integração do Azure, o tempo de execução de integração auto-hospedado e o tempo de execução de integração Azure-SSIS. Para o tempo de execução de integração do Azure, você também pode habilitar uma rede virtual gerenciada, o que torna sua arquitetura diferente do tempo de execução de integração global do Azure.

Esta tabela lista as diferenças em alguns aspetos de todos os tempos de execução de integração. Você pode escolher o apropriado de acordo com suas necessidades reais. Para o tempo de execução de integração Azure-SSIS, você pode saber mais no artigo Criar um tempo de execução de integração Azure-SSIS.

Funcionalidade Runtime de integração do Azure Tempo de execução de integração do Azure com rede virtual gerenciada Runtime de integração autoalojado
Computação gerida Y Y N
Dimensionamento Automático Y Y* N
Fluxo de dados Y Y N
Acesso a dados locais N Y** Y
Link Privado/Ponto Final Privado N Y*** Y
Componente/driver personalizado N N Y

* Quando o tempo de vida (TTL) está ativado, o tamanho de computação do tempo de execução de integração é reservado de acordo com a configuração e não pode ser dimensionado automaticamente.

** Os ambientes locais devem estar conectados ao Azure via Rota Expressa ou VPN. Não há suporte para componentes e drivers personalizados.

Os pontos de extremidade privados são gerenciados pelo serviço Azure Data Factory.

É importante escolher um tipo apropriado de tempo de execução de integração. Não só deve ser adequado para sua arquitetura existente e requisitos de integração de dados, mas você também precisa considerar como atender ainda mais às crescentes necessidades de negócios e qualquer aumento futuro na carga de trabalho. Mas não existe uma abordagem única. A seguinte consideração pode ajudá-lo a navegar na decisão:

  1. Quais são os locais de tempo de execução de integração e armazenamento de dados?
    O local do tempo de execução de integração define o local de sua computação back-end e onde a movimentação de dados, o despacho de atividades e a transformação de dados são executados. Para obter melhor desempenho e eficiência de transmissão, o tempo de execução da integração deve estar mais próximo da fonte de dados ou do coletor.

    • O tempo de execução de integração do Azure deteta automaticamente o local mais adequado com base em algumas regras (também conhecidas como resolução automática). Veja os detalhes aqui: Localização do Azure IR.
    • O tempo de execução de integração do Azure com uma rede virtual gerenciada tem a mesma região que seu data factory. Ele não pode ser resolvido automaticamente como o tempo de execução de integração do Azure.
    • O tempo de execução de integração auto-hospedado está localizado na região de suas máquinas locais ou máquinas virtuais do Azure.
  2. O armazenamento de dados é acessível ao público?
    Se o armazenamento de dados for acessível publicamente, a diferença entre os diferentes tipos de tempos de execução de integração não será grande. Se a loja estiver atrás de um firewall ou em uma rede privada, como uma rede local ou virtual, as melhores opções são o tempo de execução de integração do Azure com uma rede virtual gerenciada ou o tempo de execução de integração auto-hospedado.

    • Há alguma configuração extra necessária, como o Serviço de Link Privado e o Balanceador de Carga, ao usar o tempo de execução de integração do Azure com uma rede virtual gerenciada para acessar um armazenamento de dados atrás de um firewall ou em uma rede privada. Você pode consultar este tutorial : Access on-premises SQL Server from Data Factory Managed VNet using Private Endpoint como exemplo. Se o armazenamento de dados estiver em um ambiente local, o local deverá estar conectado ao Azure por meio da Rota Expressa ou de uma VPN S2S.
    • O tempo de execução de integração auto-hospedado é mais flexível e não requer configurações extras, Rota Expressa ou VPN. Mas você precisa fornecer e manter a máquina por conta própria.
    • Você também pode adicionar os endereços IP públicos do tempo de execução de integração do Azure à lista de permissões do seu firewall e permitir que ele acesse o armazenamento de dados, mas não é uma solução desejável em ambientes de produção altamente seguros.
  3. Que nível de segurança é necessário durante a transmissão de dados?
    Se você precisa processar dados altamente confidenciais, você quer se defender contra, por exemplo, ataques man-in-the-middle durante a transmissão de dados. Em seguida, você pode optar por usar um Ponto Final Privado e um Link Privado para garantir a segurança dos dados.

    • Você pode criar pontos de extremidade privados gerenciados para seus armazenamentos de dados ao usar o tempo de execução de integração do Azure com uma rede virtual gerenciada. Os pontos de extremidade privados são mantidos pelo serviço Azure Data Factory na rede virtual gerenciada.
    • Você também pode criar pontos de extremidade privados em sua rede virtual e o tempo de execução de integração auto-hospedado pode usá-los para acessar armazenamentos de dados.
    • O tempo de execução de integração do Azure não suporta Ponto de Extremidade Privado e Link Privado.
  4. Que nível de manutenção é capaz de fornecer?
    Manter infraestrutura, servidores e equipamentos é uma das tarefas importantes do departamento de TI de uma empresa. Geralmente leva muito tempo e esforço.

    • Você não precisa se preocupar com a manutenção, como atualização, patch e versão do tempo de execução de integração do Azure e do tempo de execução de integração do Azure com uma rede virtual gerenciada. O serviço Azure Data Factory cuida de todos os esforços de manutenção.
    • Como o tempo de execução de integração auto-hospedado é instalado nas máquinas do cliente, a manutenção deve ser cuidada pelos usuários finais. No entanto, você pode habilitar a atualização automática para obter automaticamente a versão mais recente do tempo de execução de integração auto-hospedado sempre que houver uma atualização. Para saber mais sobre como habilitar a atualização automática e gerenciar o controle de versão do tempo de execução de integração auto-hospedado, consulte o artigo Auto-hosted integration runtime autoupdate and expire notification. Também fornecemos uma ferramenta de diagnóstico para o tempo de execução de integração auto-hospedado para verificar a integridade de alguns problemas comuns. Para saber mais sobre a ferramenta de diagnóstico, consulte o artigo Ferramenta de diagnóstico de tempo de execução de integração auto-hospedada. Além disso, recomendamos usar o Azure Monitor e o Azure Log Analytics especificamente para coletar esses dados e habilitar um único painel de monitoramento de vidro para seus tempos de execução de integração auto-hospedados. Saiba mais sobre como configurar isso no artigo Configurar o tempo de execução de integração auto-hospedado para coleta de análise de log para obter instruções.
  5. Que requisitos de simultaneidade você tem?
    Ao processar dados em grande escala, como a migração de dados em grande escala, esperamos melhorar a eficiência e a velocidade do processamento tanto quanto possível. A simultaneidade é muitas vezes um requisito importante para a integração de dados.

    • O tempo de execução de integração do Azure tem o maior suporte de simultaneidade entre todos os tipos de tempo de execução de integração. A unidade de integração de dados (DIU) é a unidade de capacidade para ser executada no Azure Data Factory. Você pode selecionar o número desejado de DIU, por exemplo, Copiar atividade. Dentro do escopo do DIU, você pode executar várias atividades ao mesmo tempo. Para diferentes grupos de regiões, teremos diferentes limitações superiores. Saiba mais sobre os detalhes desses limites no artigo Limites do Data Factory.
    • O tempo de execução de integração do Azure com uma rede virtual gerenciada tem um mecanismo semelhante ao tempo de execução de integração do Azure, mas devido a algumas restrições de arquitetura, a simultaneidade que ele pode suportar é menor do que o tempo de execução de integração do Azure.
    • As atividades simultâneas que o tempo de execução de integração auto-hospedado pode executar dependem do tamanho da máquina e do tamanho do cluster. Você pode escolher uma máquina maior ou usar mais nós de integração auto-hospedados no cluster se precisar de maior simultaneidade.
  6. Necessita de alguma funcionalidade específica?
    Existem algumas diferenças funcionais entre os tipos de tempos de execução de integração.

    • O fluxo de dados é suportado pelo tempo de execução de integração do Azure e pelo tempo de execução de integração do Azure com uma rede virtual gerenciada. No entanto, você não pode executar o Dataflow usando o tempo de execução de integração auto-hospedado.
    • Se você precisar instalar componentes personalizados, como drivers ODBC, uma JVM ou um certificado do SQL Server, o tempo de execução de integração auto-hospedado é sua única opção. Os componentes personalizados não são suportados pelo tempo de execução de integração do Azure ou pelo tempo de execução de integração do Azure com uma rede virtual gerenciada.

Arquitetura para tempo de execução de integração

Com base nas características de cada tempo de execução de integração, diferentes arquiteturas são necessárias para atender às necessidades de negócios da integração de dados. A seguir estão algumas arquiteturas típicas que podem ser usadas como referência.

Runtime de integração do Azure

O tempo de execução de integração do Azure é uma computação totalmente gerenciada e dimensionada automaticamente que você pode usar para mover dados de fontes de dados do Azure ou de fontes de dados que não sejam do Azure.

Screenshot of integration runtime is a fully managed.

  1. O tráfego do tempo de execução de integração do Azure para armazenamentos de dados é através da rede pública.
  2. Fornecemos um intervalo de endereços IP públicos estáticos para o tempo de execução de integração do Azure e esses endereços IP podem ser adicionados à lista de permissões do firewall do armazenamento de dados de destino. Para saber mais sobre como obter endereços IP públicos do tempo de execução da Integração do Azure, consulte o artigo Endereços IP do Tempo de Execução da Integração do Azure.
  3. O tempo de execução de integração do Azure pode ser resolvido automaticamente de acordo com a região da fonte de dados e do coletor de dados. Ou você pode escolher uma região específica. Recomendamos que você escolha a região mais próxima de sua fonte de dados ou coletor, o que pode fornecer um melhor desempenho de execução. Saiba mais sobre considerações de desempenho no artigo Solucionar problemas de atividade de cópia no IR do Azure.

Tempo de execução de integração do Azure com rede virtual gerenciada

Ao usar o tempo de execução de integração do Azure com uma rede virtual gerenciada, você deve usar pontos de extremidade privados gerenciados para conectar suas fontes de dados para garantir a segurança dos dados durante a transmissão. Com algumas configurações extras, como o Serviço de Link Privado e o Balanceador de Carga, os pontos de extremidade privados gerenciados também podem ser usados para acessar fontes de dados locais.

Screenshot of integration runtime with a managed virtual network.

  1. Um ponto de extremidade privado gerenciado não pode ser reutilizado em ambientes diferentes. Você precisa criar um conjunto de pontos de extremidade privados gerenciados para cada ambiente. Para todas as fontes de dados suportadas por pontos de extremidade privados gerenciados, consulte o artigo Fontes de dados e serviços suportados.
  2. Você também pode usar pontos de extremidade privados gerenciados para conexões com recursos de computação externos que deseja orquestrar, como o Azure Databricks e o Azure Functions. Para ver a lista completa de recursos de computação externos suportados, consulte o artigo Fontes de dados e serviços suportados.
  3. A rede virtual gerenciada é gerenciada pelo serviço Azure Data Factory. Não há suporte para emparelhamento VNET entre uma rede virtual gerenciada e uma rede virtual do cliente.
  4. Os clientes não podem alterar diretamente configurações como a regra NSG em uma rede virtual gerenciada.
  5. Se qualquer propriedade de um ponto de extremidade privado gerenciado for diferente entre ambientes, você poderá substituí-la parametrizando essa propriedade e fornecendo o respetivo valor durante a implantação. Veja os detalhes no artigo Práticas recomendadas para CI/CD.

Runtime de integração autoalojado

Para evitar que dados de diferentes ambientes interfiram uns com os outros e garantir a segurança do ambiente de produção, precisamos criar um tempo de execução de integração auto-hospedado correspondente para cada ambiente. Isso garante isolamento suficiente entre diferentes ambientes.

Screenshot of creating a corresponding self-hosted integration runtime for each environment.

Como o tempo de execução de integração auto-hospedado é executado em uma máquina gerenciada pelo cliente, a fim de reduzir o custo, a manutenção e os esforços de atualização tanto quanto possível, podemos fazer uso das funções compartilhadas do tempo de execução de integração auto-hospedado para diferentes projetos no mesmo ambiente. Para obter detalhes sobre o compartilhamento de tempo de execução de integração auto-hospedado, consulte o artigo Criar um tempo de execução de integração auto-hospedado compartilhado no Azure Data Factory. Ao mesmo tempo, para tornar os dados mais seguros durante a transmissão, podemos optar por usar um link privado para conectar as fontes de dados e o cofre de chaves e conectar a comunicação entre o tempo de execução de integração auto-hospedado e o serviço Azure Data Factory.

Screenshot of using the shared functions of the self-hosted integration runtime for different projects in the same environment.

  1. A Rota Expressa não é obrigatória. Sem a Rota Expressa, os dados não chegarão ao coletor através de redes privadas, como uma rede virtual ou um link privado, mas através da rede pública.
  2. Se a rede local estiver conectada à rede virtual do Azure via Rota Expressa ou VPN, o tempo de execução de integração auto-hospedado poderá ser instalado em máquinas virtuais em uma VNET de Hub.
  3. A arquitetura de rede virtual hub-spoke pode ser usada não apenas para diferentes projetos, mas também para diferentes ambientes (Prod, QA e Dev).
  4. O tempo de execução de integração auto-hospedado pode ser compartilhado com várias fábricas de dados. O data factory primário faz referência a ele como um tempo de execução de integração auto-hospedado compartilhado e outros se referem a ele como um tempo de execução de integração auto-hospedado vinculado. Um tempo de execução de integração auto-hospedado físico pode ter vários nós em um cluster. A comunicação só acontece entre o tempo de execução de integração auto-hospedado primário e o nó primário, com o trabalho sendo distribuído para nós secundários a partir do nó primário.
  5. As credenciais dos armazenamentos de dados locais podem ser armazenadas na máquina local ou em um Cofre de Chaves do Azure. O Azure Key Vault é altamente recomendado.
  6. A comunicação entre o tempo de execução de integração auto-hospedado e o data factory pode passar por um link privado. Mas, atualmente, a criação interativa por meio do Azure Relay e a atualização automática para a versão mais recente do centro de download não oferecem suporte ao link privado. O tráfego passa pelo firewall do ambiente local. Para obter mais informações, consulte o artigo Azure Private Link for Azure Data Factory.
  7. O link privado só é necessário para o data factory primário. Todo o tráfego passa pelo data factory primário e, em seguida, para outras fábricas de dados.
  8. O mesmo nome do tempo de execução de integração auto-hospedado em todos os estágios de CI/CD é esperado. Você pode considerar o uso de uma fábrica ternária apenas para conter os tempos de execução de integração auto-hospedados compartilhados e usar o tempo de execução de integração auto-hospedado vinculado nos vários estágios de produção. Para obter mais informações, consulte o artigo Integração e entrega contínuas.
  9. Você pode controlar como o tráfego vai para o centro de download e o Azure Relay usando configurações de sua rede local e Rota Expressa, por meio de um proxy local ou rede virtual de hub. Verifique se o tráfego é permitido por proxy ou regras NSG.
  10. Se quiser proteger a comunicação entre nós de tempo de execução de integração auto-hospedados, você pode habilitar o acesso remoto da intranet com um certificado TLS/SSL. Para obter mais informações, consulte o artigo Habilitar acesso remoto da intranet com certificado TLS/SSL (avançado).