Exemplo de arquitetura de integração de dados SAP

Artigo
02/29/2024

Este artigo faz parte da série de artigos "SAP extend and innovate data: Best practices".

Este artigo descreve o fluxo de dados SAP dos sistemas SAP de origem para os destinos downstream. Cada meta serve a um propósito na jornada de dados para sua empresa. O design da arquitetura estende as soluções SAP usando os serviços de dados do Azure. Use o Azure Synapse Analytics para criar uma plataforma de dados moderna para ingerir, processar, armazenar, servir e visualizar dados de várias fontes.

Apache Spark® e Apache Kafka® são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.

Arquitetura

O diagrama a seguir é um exemplo de arquitetura de uma integração de dados SAP no Azure. Use este exemplo de arquitetura como ponto de partida.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama anterior:

Fontes de dados. Um sistema se conecta a uma fonte de dados para permitir a ingestão e análise de dados.
Ingestão de dados. Os pipelines do Azure Data Factory e do Synapse habilitam a integração de dados.
Armazenamento de dados. Os dados são armazenados no Armazenamento do Azure Data Lake criado no Armazenamento de Blobs do Azure.
Transformação e consumo de dados. Os dados são transformados em estágios e o consumo é habilitado por meio de relatórios com o Power BI ou por meio de pontos de extremidade privados que permitem acessar dados com segurança em um link privado.
Visualização de dados e geração de relatórios. Você pode acessar relatórios e visualizar dados com o serviço do Power BI ou um aplicativo externo.

Fontes de dados

Os sistemas SAP de origem podem ser executados no local com o SAP RISE no Azure ou o SAP nas Máquinas Virtuais do Azure. Eles podem ser servidores SQL locais, dados semiestruturados em arquivos JSON, XML e de log ou outros sistemas de data warehouse. As atividades de cópia de pipelines Synapse podem ingerir esses dados brutos. Os sistemas de origem são hospedados localmente, em uma nuvem privada ou pública ou com assinaturas do SAP RISE.

Os sistemas SAP de processamento de dados transacionais on-line (OLTP) e processamento analítico on-line (OLAP) são repositórios centrais de dados e transações comerciais. Extraia, armazene e ingira dados no Azure para obter valor e insights dos dados que residem nesses repositórios de dados corporativos.

Com os serviços do Azure, você pode integrar dados de qualquer local de origem. Planeje a configuração de extração com base no local hospedado, controles de segurança, padrões de operações, largura de banda e obrigações contratuais.

Ingestão de dados

Nessa arquitetura, os dados são ingeridos usando pipelines Synapse e processados em estágios usando os recursos Data Lake do pool Synapse Spark.

Os pipelines do Data Factory e do Synapse extraem dados usando os seguintes conectores SAP:

Para saber mais, consulte os recursos a seguir:

Armazenamento de dados

No Data Lake Storage Gen2, o Armazenamento do Azure é a base para a criação de data lakes corporativos no Azure. Com o Data Lake Storage Gen2, você pode gerenciar grandes quantidades de dados porque ele atende a vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência.

Os dados são criptografados em repouso depois de ingeridos no data lake. Use suas chaves gerenciadas pelo cliente para aprimorar ainda mais a criptografia e adicionar flexibilidade de controle de acesso.

Para obter mais informações, consulte a introdução e as práticas recomendadas do Data Lake Storage Gen2.

Transformação e consumo de dados

Nessa arquitetura, os dados ingeridos das fontes de dados são armazenados em um local do Data Lake Storage Gen2.

Você pode gerenciar e executar atividades de cópia entre um armazenamento de dados em seu ambiente local e a nuvem usando um SHIR (tempo de execução de integração auto-hospedado). Mantenha sempre o sistema SHIR próximo aos sistemas de origem.

Armazene dados em sua conta de armazenamento usando diretórios Data Lake Storage Gen2 específicos do estágio, como Bronze, Prata e Ouro.

Bronze: Os pipelines Synapse copiam as atividades que ingerem dados dos sistemas de origem. Esses dados ingeridos são armazenados em formato bruto usando o diretório Bronze do data lake.
Prata: O pool Synapse Spark executa regras de qualidade de dados para limpar os dados brutos. Esses dados enriquecidos são armazenados no diretório Silver do data lake.
Gold: após o processo de limpeza, o pool do Spark aplica qualquer normalização, transformações de dados e regras de negócios necessárias aos dados do diretório Silver. Esses dados transformados são armazenados no diretório Gold do data lake.

O conector Synapse Apache Spark para Synapse SQL envia os dados normalizados para o pool Synapse SQL para consumo por aplicativos downstream e serviços de relatório, como o Power BI. Esse conector transfere dados de forma ideal entre os pools Apache Spark sem servidor e os pools SQL no espaço de trabalho do Azure Synapse Analytics.

Para suas contas de armazenamento, os pontos de extremidade privados fornecem aos clientes na rede virtual acesso seguro aos dados por meio de um link privado. O ponto de extremidade privado usa um endereço IP do espaço de endereço de rede virtual para o serviço Conta de armazenamento. O tráfego de rede entre os clientes na rede virtual e a conta de armazenamento atravessa a rede virtual e um link privado na rede de backbone da Microsoft para eliminar a exposição à Internet pública.

Visualização de dados e geração de relatórios

No serviço do Power BI, use o DirectQuery para buscar dados com segurança do pool Synapse SQL.

Um gateway de dados instalado em uma máquina virtual na rede virtual privada fornece uma plataforma de conexão entre o serviço do Power BI e o pool SQL do Synapse. Para se conectar com segurança, o gateway de dados usa um ponto de extremidade privado na mesma rede virtual.

Os aplicativos externos podem acessar dados dos pools sem servidor Synapse ou pools SQL dedicados usando pontos de extremidade privados conectados à rede virtual.

Componentes

Essa arquitetura usa vários serviços e recursos do Azure.

Análise de dados

O Azure Synapse Analytics é o serviço principal que ingere, processa e analisa dados.
O Data Lake Storage Gen2 foi criado com base nos serviços de armazenamento e fornece recursos de data lake que outros serviços usam ao armazenar e processar dados.
Os pipelines do Azure Synapse Analytics copiam dados de fontes para locais do Data Lake Storage Gen2.
O Apache Spark limpa, normaliza e processa dados ingeridos dos locais de origem.

Armazenamento

O pool SQL dedicado do Azure Synapse Analytics fornece recursos de armazenamento de dados depois que os dados são processados e normalizados e está pronto para uso de clientes e aplicativos.
Com o pool SQL sem servidor do Azure Synapse Analytics, você pode consultar e analisar dados processados e normalizados rapidamente.

Redes e balanceadores de carga

Uma rede virtual gerenciada pelo Azure Synapse Analytics cria um ambiente isolado e gerenciado para o espaço de trabalho do Azure Synapse, para que você não precise gerenciar a configuração de rede para os recursos do espaço de trabalho.
Os pontos de extremidade privados gerenciados pelo Azure Synapse estabelecem links privados para recursos do Azure e roteiam o tráfego entre seus espaços de trabalho do Azure Synapse e outros recursos do Azure usando a rede de backbone da Microsoft.
A Rede Virtual do Azure fornece recursos de rede privada para recursos do Azure que não fazem parte do espaço de trabalho do Azure Synapse. Você pode gerenciar o acesso, a segurança e o roteamento entre recursos.
Um ponto de extremidade privado do Azure conecta um serviço a uma rede virtual usando um endereço IP privado da rede virtual da solução para serviços gerenciados pelo Azure. Essa conexão protege a rede entre o espaço de trabalho do Azure Synapse e outros serviços do Azure, como Armazenamento, Azure Cosmos DB, Banco de Dados SQL do Azure ou seu próprio serviço de Link Privado do Azure.

Reporting

O Power BI executa análises e insights avançados dos dados processados.

Compartilhar via