Overzicht en architectuur van de SAP CDC-mogelijkheden
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Meer informatie over de MOGELIJKHEDEN van SAP Change Data Capture (CDC) in Azure Data Factory en inzicht in de architectuur.
Azure Data Factory is een ETL- en ELT-gegevensintegratieplatform als een service (PaaS). Voor SAP-gegevensintegratie biedt Data Factory momenteel zes connectors voor algemene beschikbaarheid:
Gegevensextractiebehoeften
De SAP-connectors in Data Factory extraheren ALLEEN SAP-brongegevens in batches. Elke batch verwerkt bestaande en nieuwe gegevens op dezelfde wijze. In de batchmodus worden wijzigingen tussen bestaande en nieuwe gegevenssets niet geïdentificeerd in de batchmodus. Dit type extractiemodus is niet optimaal wanneer u grote gegevenssets hebt, zoals tabellen met miljoenen of miljarden records die vaak veranderen.
U kunt uw kopie van SAP-gegevens actueel en up-to-date houden door regelmatig de volledige gegevensset te extraheren, maar deze benadering is duur en inefficiënt. U kunt ook een handmatige, beperkte tijdelijke oplossing gebruiken om voornamelijk nieuwe of bijgewerkte records te extraheren. Bij een proces dat watermerken wordt genoemd, vereist extractie een tijdstempelkolom, monotonisch toenemende waarden en het continu bijhouden van de hoogste waarde sinds de laatste extractie. Maar sommige tabellen hebben geen kolom die u kunt gebruiken voor watermerken. Dit proces identificeert ook geen verwijderde record als een wijziging in de gegevensset.
SAP CDC-mogelijkheden
Microsoft-klanten geven aan dat ze een connector nodig hebben die alleen de verschillen tussen twee gegevenssets kan extraheren. In gegevens is een delta elke wijziging in een gegevensset die het resultaat is van een update, invoeging of verwijdering in de gegevensset. Een deltaextractieconnector maakt gebruik van de FUNCTIE SAP Change Data Capture (CDC) die in de meeste SAP-systemen bestaat om de delta in een gegevensset te bepalen. De SAP CDC-mogelijkheden in Data Factory gebruiken het ODP-framework (SAP Operational Data Provisioning) om de delta in een SAP-brongegevensset te repliceren.
Dit artikel bevat een architectuur op hoog niveau van de SAP CDC-mogelijkheden in Azure Data Factory. Meer informatie over de MOGELIJKHEDEN van SAP CDC:
- Vereisten en installatie
- Een zelf-hostende Integration Runtime instellen
- Een gekoppelde service en brongegevensset instellen
- Uw oplossing beheren
De SAP CDC-mogelijkheden gebruiken
De SAP CDC-connector is de kern van de SAP CDC-mogelijkheden. Het kan verbinding maken met alle SAP-systemen die ODP ondersteunen, waaronder SAP ECC, SAP S/4HANA, SAP BW en SAP BW/4HANA. De oplossing werkt rechtstreeks op de toepassingslaag of indirect via een SAP Landscape Transformation Replication Server (SLT) als proxy. Het is niet afhankelijk van watermerken om SAP-gegevens volledig of incrementeel te extraheren. De gegevens die door de SAP CDC-connector worden geëxtraheerd, bevatten niet alleen fysieke tabellen, maar ook logische objecten die met behulp van de tabellen worden gemaakt. Een voorbeeld van een op tabellen gebaseerd object is een ABAP-weergave (SAP Advanced Business Application Programming) Core Data Services (CDS).
Gebruik de SAP CDC-connector met Data Factory-functies zoals toewijzingsgegevensstroomactiviteiten en tumblingvenstertriggers voor een SAP CDC-replicatieoplossing met lage latentie in een zelfbeheerde pijplijn.
De SAP CDC-architectuur
De SAP CDC-oplossing in Azure Data Factory is een connector tussen SAP en Azure. De SAP-zijde bevat de SAP ODP-connector die de ODP-API aanroept via standaard RFC-modules (Remote Function Call) om volledige en delta onbewerkte SAP-gegevens te extraheren.
De Azure-zijde bevat de toewijzingsgegevensstroom die de SAP-gegevens kan transformeren en laden in elke gegevenssink die wordt ondersteund door toewijzingsgegevensstromen. Sommige van deze opties zijn opslagbestemmingen zoals Azure Data Lake Storage Gen2 of databases zoals Azure SQL Database of Azure Synapse Analytics. De activiteit van de toewijzingsgegevensstroom kan ook de resultaten laden in Data Lake Storage Gen2 in delta-indeling. U kunt de Delta Lake Time Travel-functie gebruiken om momentopnamen van SAP-gegevens te produceren voor een specifieke periode. U kunt uw pijplijn- en toewijzingsgegevensstromen vaak uitvoeren met behulp van een tumblingvenstertrigger van Data Factory om SAP-gegevens in Azure met lage latentie te repliceren en zonder watermerken te gebruiken.
Maak eerst een gekoppelde SAP CDC-service, een SAP CDC-brongegevensset en een pijplijn met een activiteit voor toewijzingsgegevensstromen waarin u de SAP CDC-brongegevensset gebruikt. Voor het extraheren van de gegevens uit SAP is een zelf-hostende Integration Runtime vereist die u installeert op een on-premises computer of op een virtuele machine (VM) die een lijn van zicht heeft op uw SAP-bronsystemen of uw SLT-server. De activiteit toewijzingsgegevensstroom wordt uitgevoerd op een serverloze Azure Databricks- of Apache Spark-cluster of in een Azure Integration Runtime. Er moet een faseringsopslag worden geconfigureerd in toewijzingsgegevensstroomactiviteit om ervoor te zorgen dat uw zelf-hostende Integration Runtime naadloos werkt met integratieruntime voor toewijzingsgegevensstromen.
De SAP CDC-connector maakt gebruik van het SAP ODP-framework om verschillende gegevensbrontypen te extraheren, waaronder:
- SAP-extractors, oorspronkelijk gebouwd om gegevens uit SAP ECC te extraheren en in SAP BW te laden
- ABAP CDS-weergaven, de nieuwe standaard voor gegevensextractie voor SAP S/4HANA
- Gegevenssets infoProviders en InfoObjects in SAP BW en SAP BW/4HANA
- SAP-toepassingstabellen wanneer u een SAP LT-replicatieserver (SLT) als proxy gebruikt
In dit proces zijn de SAP-gegevensbronnen providers. De providers worden uitgevoerd op SAP-systemen om volledige of incrementele gegevens te produceren in een OPERATIONELE DELTA-wachtrij (ODQ). De bron van de toewijzingsgegevensstroom is een abonnee van de ODQ.
Omdat ODP providers volledig loskoppelt van abonnees, zijn alle SAP-documentatie die providerconfiguraties biedt, van toepassing op Data Factory als abonnee. Zie Inleiding tot het inrichten van operationele gegevens voor meer informatie over ODP.