Voorbeeldarchitectuur voor SAP-gegevensintegratie

Artikel
02/29/2024

Dit artikel maakt deel uit van de reeks artikelen 'SAP uitbreiden en innoveren: Best practices'.

In dit artikel wordt de stroom van SAP-gegevens van bron-SAP-systemen naar downstreamdoelen beschreven. Elk doel dient een doel in het gegevenstraject voor uw onderneming. Het architectuurontwerp breidt SAP-oplossingen uit met behulp van Azure-gegevensservices. Gebruik Azure Synapse Analytics om een modern gegevensplatform te bouwen voor het opnemen, verwerken, opslaan, leveren en visualiseren van gegevens uit verschillende bronnen.

Apache Spark® en Apache Kafka® zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.

Architectuur

Het volgende diagram is een voorbeeldarchitectuur van een SAP-gegevensintegratie in Azure. Gebruik deze voorbeeldarchitectuur als uitgangspunt.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

De volgende gegevensstroom komt overeen met het vorige diagram:

Gegevensbronnen Een systeem maakt verbinding met een gegevensbron om gegevensopname en analyse mogelijk te maken.
Gegevensopname. Azure Data Factory- en Synapse-pijplijnen maken gegevensintegratie mogelijk.
Gegevensopslag. Gegevens worden opgeslagen in Azure Data Lake Storage die is gebouwd op Azure Blob Storage.
Gegevenstransformatie en -verbruik. Gegevens worden in fasen getransformeerd en het verbruik wordt ingeschakeld via rapporten met Power BI of via privé-eindpunten waarmee u veilig toegang hebt tot gegevens via een privékoppeling.
Gegevensvisualisatie en -rapportage. U kunt rapporten openen en gegevens visualiseren met de Power BI-service of een externe toepassing.

Gegevensbronnen

De bron-SAP-systemen kunnen on-premises worden uitgevoerd met SAP RISE in Azure of SAP op virtuele Azure-machines. Ze kunnen on-premises SQL-servers, semi-gestructureerde gegevens zijn in JSON-, XML- en logboekbestanden of andere datawarehouse-systemen. Kopieeractiviteiten van de Synapse-pijplijnen kunnen deze onbewerkte gegevens opnemen. De bronsystemen worden on-premises gehost, in een privé- of openbare cloud of met SAP RISE-abonnementen.

OLTP-systemen (SAP Online Transactional Data Processing) en OLAP-systemen (Online Analytical Processing) zijn centrale opslagplaatsen van zakelijke gegevens en transacties. Gegevens extraheren, opslaan en opnemen in Azure om waarde en inzichten te verkrijgen uit de gegevens die zich in deze opslagplaatsen voor zakelijke gegevens bevinden.

Met Azure-services kunt u gegevens van elke bronlocatie integreren. Plan de extractieconfiguratie op basis van de gehoste locatie, beveiligingscontroles, bewerkingsstandaarden, bandbreedte en contractuele verplichtingen.

Gegevensopname

In deze architectuur worden gegevens opgenomen met behulp van Synapse-pijplijnen en worden ze in fasen verwerkt met behulp van de Data Lake-mogelijkheden van Synapse Spark-pool.

Data Factory- en Synapse-pijplijnen halen gegevens op met behulp van de volgende SAP-connectors:

Voor meer informatie raadpleegt u de volgende bronnen:

Gegevensopslag

In Data Lake Storage Gen2 is Azure Storage de basis voor het bouwen van zakelijke data lakes in Azure. Met Data Lake Storage Gen2 kunt u enorme hoeveelheden gegevens beheren, omdat er meerdere petabytes aan informatie worden gebruikt terwijl honderden gigabits aan doorvoer worden ondersteund.

Gegevens worden in rust versleuteld nadat ze zijn opgenomen in de data lake. Gebruik uw door de klant beheerde sleutels om versleuteling verder te verbeteren en flexibiliteit voor toegangsbeheer toe te voegen.

Zie de inleiding en best practices voor Data Lake Storage Gen2 voor meer informatie.

Gegevenstransformatie en -verbruik

In deze architectuur worden de opgenomen gegevens uit de gegevensbronnen opgeslagen op een Data Lake Storage Gen2-locatie.

U kunt kopieeractiviteiten beheren en uitvoeren tussen een gegevensarchief in uw on-premises omgeving en de cloud met behulp van een zelf-hostende Integration Runtime (SHIR). Houd het SHIR-systeem altijd dicht bij de bronsystemen.

Sla gegevens op in uw opslagaccount met behulp van fasespecifieke Data Lake Storage Gen2-mappen, zoals Bronze, Silver en Gold.

Brons: De Synapse-pijplijnen kopiëren activiteiten die gegevens uit de bronsystemen opnemen. Deze opgenomen gegevens worden opgeslagen in onbewerkte indeling met behulp van de bronsmap van de data lake.
Zilver: De Synapse Spark-pool voert regels voor gegevenskwaliteit uit om de onbewerkte gegevens op te schonen. Deze verrijkte gegevens worden opgeslagen in de Silver-map van data lake.
Gold: Na het opschonen past de Spark-pool alle vereiste normalisatie, gegevenstransformaties en bedrijfsregels toe op de Silver-adreslijstgegevens. Deze getransformeerde gegevens worden opgeslagen in de Gold-map van data lake.

De Synapse Apache Spark-connector naar Synapse SQL pusht de genormaliseerde gegevens naar de Synapse SQL-pool voor verbruik door downstreamtoepassingen en Reporting Services, zoals Power BI. Deze connector draagt gegevens optimaal over tussen de serverloze Apache Spark-pools en de SQL-pools in de Azure Synapse Analytics-werkruimte.

Voor uw opslagaccounts bieden privé-eindpunten klanten op het virtuele netwerk beveiligde toegang tot gegevens via een privékoppeling. Het privé-eindpunt maakt gebruik van een IP-adres uit de adresruimte van het virtuele netwerk voor de opslagaccountservice. Netwerkverkeer tussen de klanten in het virtuele netwerk en het opslagaccount loopt via het virtuele netwerk en een privékoppeling op het Microsoft backbone-netwerk om blootstelling aan het openbare internet te elimineren.

Gegevensvisualisatie en -rapportage

Gebruik DirectQuery in de Power BI-service om veilig gegevens op te halen uit de Synapse SQL-pool.

Een gegevensgateway die is geïnstalleerd in een virtuele machine in het particuliere virtuele netwerk, biedt een verbindingsplatform tussen de Power BI-service en de Synapse SQL-pool. Om veilig verbinding te maken, gebruikt de gegevensgateway een privé-eindpunt in hetzelfde virtuele netwerk.

Externe toepassingen hebben toegang tot gegevens uit de serverloze Synapse-pools of toegewezen SQL-pools met behulp van privé-eindpunten die zijn verbonden met het virtuele netwerk.

Onderdelen

Deze architectuur maakt gebruik van verschillende Azure-services en -mogelijkheden.

Gegevensanalyse

Azure Synapse Analytics is de kernservice waarmee gegevens worden opgenomen, verwerkt en geanalyseerd.
Data Lake Storage Gen2 is gebouwd op opslagservices en biedt data lake-mogelijkheden die andere services gebruiken bij het opslaan en verwerken van gegevens.
Azure Synapse Analytics-pijplijnen kopiëren gegevens van bronnen naar Data Lake Storage Gen2-locaties.
Apache Spark reinigt, normaliseert en verwerkt gegevens die zijn opgenomen vanaf bronlocaties.

Storage

De toegewezen SQL-pool van Azure Synapse Analytics biedt mogelijkheden voor datawarehousing nadat gegevens zijn verwerkt en genormaliseerd en gereed zijn voor klanten en toepassingen die kunnen worden gebruikt.
Met de serverloze SQL-pool van Azure Synapse Analytics kunt u snel query's uitvoeren op verwerkte en genormaliseerde gegevens.

Netwerken en load balancers

Een met Azure Synapse Analytics beheerd virtueel netwerk maakt een geïsoleerde en beheerde omgeving voor de Azure Synapse-werkruimte, zodat u de netwerkconfiguratie voor de werkruimteresources niet hoeft te beheren.
Met Azure Synapse beheerde privé-eindpunten worden privékoppelingen naar Azure-resources tot stand gebracht en verkeer gerouteerd tussen uw Azure Synapse-werkruimten en andere Azure-resources met behulp van het Microsoft backbone-netwerk.
Azure Virtual Network biedt mogelijkheden voor privénetwerken voor Azure-resources die geen deel uitmaken van de Azure Synapse-werkruimte. U kunt de toegang, beveiliging en routering tussen resources beheren.
Een privé-Eindpunt van Azure verbindt een service met een virtueel netwerk met behulp van een privé-IP-adres van het virtuele netwerk van de oplossing met door Azure beheerde services. Deze verbinding beveiligt het netwerk tussen de Azure Synapse-werkruimte en andere Azure-services, zoals Storage, Azure Cosmos DB, Azure SQL Database of uw eigen Azure Private Link-service.

Rapportage

Power BI voert geavanceerde analyses en inzichten uit van de verwerkte gegevens.

Delen via