Příklad architektury integrace dat SAP
Tento článek je součástí řady článků "SAP extend and innovate data: Best practices" (Rozšiřte a inovujte data SAP: Osvědčené postupy).
- Identifikace zdrojů dat SAP
- Výběr nejlepšího konektoru SAP
- Výkon a řešení potíží při extrakci dat SAP
- Zabezpečení integrace dat pro SAP v Azure
- Obecná architektura integrace dat SAP
Tento článek popisuje tok dat SAP ze zdrojových systémů SAP do podřízených cílů. Každý cíl slouží k účelu na cestě k datům pro váš podnik. Návrh architektury rozšiřuje řešení SAP pomocí datových služeb Azure. Pomocí Azure Synapse Analytics můžete vytvořit moderní datovou platformu pro příjem, zpracování, ukládání, obsluhu a vizualizaci dat z různých zdrojů.
Apache Spark® a Apache Kafka® jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.
Architektura
Následující diagram představuje ukázkovou architekturu integrace dat SAP v Azure. Tuto ukázkovou architekturu použijte jako výchozí bod.
Stáhněte si soubor aplikace Visio s touto architekturou.
Tok dat
Následující tok dat odpovídá předchozímu diagramu:
- Zdroje dat. Systém se připojí ke zdroji dat, aby umožnil příjem a analýzu dat.
- Příjem dat. Kanály Azure Data Factory a Synapse umožňují integraci dat.
- Úložiště dat – Data se ukládají ve službě Azure Data Lake Storage, která je založená na službě Azure Blob Storage.
- Transformace a spotřeba dat Data se transformují ve fázích a spotřeba se povolí prostřednictvím sestav s Power BI nebo prostřednictvím privátních koncových bodů, které umožňují zabezpečený přístup k datům přes privátní propojení.
- Vizualizace dat a vytváření sestav K sestavám a vizualizaci dat můžete přistupovat pomocí služba Power BI nebo externí aplikace.
Zdroje dat
Zdrojové systémy SAP můžou spouštět místně pomocí SAP RISE v Azure nebo SAP ve službě Azure Virtual Machines. Můžou to být místní SQL servery, částečně strukturovaná data ve formátu JSON, XML a soubory protokolů nebo jiné systémy datového skladu. Aktivity kopírování kanálů Synapse můžou ingestovat tato nezpracovaná data. Zdrojové systémy jsou hostované místně, v privátním nebo veřejném cloudu nebo s předplatnými SAP RISE.
Systémy OLAP (Online TransactionAl Data Processing) SAP (OLTP) a online analytické zpracování (OLAP) jsou centrální úložiště obchodních dat a transakcí. Extrahujte, ukládejte a ingestujte data do Azure, abyste získali hodnotu a přehledy z dat umístěných v těchto úložištích obchodních dat.
Se službami Azure můžete integrovat data z libovolného zdrojového umístění. Naplánujte konfiguraci extrakce na základě hostovaného umístění, kontrolních mechanismů zabezpečení, provozních standardů, šířky pásma a smluvních závazků.
Příjem dat
V této architektuře se data ingestují pomocí kanálů Synapse a zpracovávají se ve fázích pomocí funkcí Data Lake fondu Synapse Spark.
Kanály Data Factory a Synapse extrahují data pomocí následujících konektorů SAP:
- SAP Business Warehouse přes Open Hub
- SAP Business Warehouse prostřednictvím multidimenzionálních výrazů (MDX)
- Konektor SAP Change Data Capture (CDC)
- SAP Cloud pro zákazníka
- SAP ERP – centrální komponenta (ECC)
- SAP HANA
- Tabulka SAP
Další informace naleznete v následujících zdrojích:
- Přehled znalostního centra SAP
- Konektory SAP
- Příjem dat SAP s využitím analýz na úrovni cloudu v Azure
Úložiště dat
V Data Lake Storage Gen2 je Azure Storage základem pro vytváření podnikových datových jezer v Azure. S Data Lake Storage Gen2 můžete spravovat obrovské objemy dat, protože obsluhuje více petabajtů informací a současně udržuje stovky gigabitů propustnosti.
Neaktivní uložená data se šifrují po ingestování do datového jezera. Pomocí klíčů spravovaných zákazníkem můžete dále vylepšit šifrování a přidat flexibilitu řízení přístupu.
Další informace najdete v úvodu k Data Lake Storage Gen2 a osvědčeným postupům.
Transformace a spotřeba dat
V této architektuře se ingestovaná data ze zdrojů dat ukládají do umístění Data Lake Storage Gen2.
Aktivity kopírování můžete spravovat a spouštět mezi úložištěm dat v místním prostředí a v cloudu pomocí místního prostředí Integration Runtime (SHIR). Vždy udržujte systém SHIR v blízkosti zdrojových systémů.
Data můžete ukládat do svého účtu Úložiště pomocí adresářů Data Lake Storage Gen2 specifických pro jednotlivé fáze, jako jsou bronz, Silver a Gold.
- Bronzová: Kanály Synapse kopírují aktivity ingestování dat ze zdrojových systémů. Tato ingestovaná data se ukládají v nezpracovaných formátech pomocí bronzového adresáře data lake.
- Silver: Fond Synapse Spark spouští pravidla kvality dat pro vyčištění nezpracovaných dat. Tato rozšířená data jsou uložená v adresáři Silver data Lake.
- Gold: Po procesu čištění fond Spark použije veškeré požadované normalizace, transformace dat a obchodní pravidla na data adresáře Silver. Tato transformovaná data jsou uložená v adresáři Gold data Lake.
Konektor Synapse Apache Spark do Synapse SQL odešle normalizovaná data do fondu Synapse SQL pro spotřebu podřízenými aplikacemi a službami generování sestav, jako je Power BI. Tento konektor optimálně přenáší data mezi bezserverovými fondy Apache Sparku a fondy SQL v pracovním prostoru Azure Synapse Analytics.
U účtů úložiště poskytují privátní koncové body zákazníkům ve virtuální síti zabezpečený přístup k datům přes privátní propojení. Privátní koncový bod používá IP adresu z adresního prostoru virtuální sítě pro službu účtu úložiště. Síťový provoz mezi zákazníky ve virtuální síti a účtem úložiště prochází přes virtuální síť a privátní propojení v páteřní síti Microsoftu, aby se zabránilo ohrožení veřejného internetu.
Vizualizace dat a vytváření sestav
V služba Power BI můžete pomocí DirectQuery bezpečně načíst data z fondu Synapse SQL.
Brána dat nainstalovaná ve virtuálním počítači v privátní virtuální síti poskytuje propojovací platformu mezi služba Power BI a fondem Synapse SQL. Aby se brána dat bezpečně připojila, používá privátní koncový bod ve stejné virtuální síti.
Externí aplikace mají přístup k datům z bezserverových fondů Synapse nebo vyhrazených fondů SQL pomocí privátních koncových bodů připojených k virtuální síti.
Komponenty
Tato architektura používá několik služeb a možností Azure.
Analýza dat
- Azure Synapse Analytics je základní služba, která ingestuje, zpracovává a analyzuje data.
- Data Lake Storage Gen2 je založená na službách Storage a poskytuje funkce data Lake, které ostatní služby používají při ukládání a zpracování dat.
- Kanály Azure Synapse Analytics kopírují data ze zdrojů do umístění Data Lake Storage Gen2.
- Apache Spark čistí, normalizuje a zpracovává data, která se ingestují ze zdrojových umístění.
Úložiště
- Vyhrazený fond SQL služby Azure Synapse Analytics poskytuje možnosti datových skladů po zpracování a normalizaci dat a je připravený pro zákazníky a aplikace, které mohou používat.
- S bezserverovým fondem SQL služby Azure Synapse Analytics můžete rychle dotazovat a analyzovat zpracovávaná a normalizovaná data.
Sítě a nástroje pro vyrovnávání zatížení
- Virtuální síť spravovaná službou Azure Synapse Analytics vytvoří izolované a spravované prostředí pro pracovní prostor Azure Synapse, takže nemusíte spravovat konfiguraci sítě pro prostředky pracovního prostoru.
- Privátní koncové body spravované službou Azure Synapse vytvářejí privátní propojení s prostředky Azure a směrují provoz mezi pracovními prostory Azure Synapse a dalšími prostředky Azure pomocí páteřní sítě Microsoftu.
- Azure Virtual Network poskytuje možnosti privátní sítě pro prostředky Azure, které nejsou součástí pracovního prostoru Azure Synapse. Přístup, zabezpečení a směrování mezi prostředky můžete spravovat.
- Privátní koncový bod Azure připojí službu k virtuální síti pomocí privátní IP adresy z virtuální sítě řešení ke službám spravovaným Azure. Toto připojení zabezpečuje sítě mezi pracovním prostorem Azure Synapse a dalšími službami Azure, jako jsou Storage, Azure Cosmos DB, Azure SQL Database nebo vaše vlastní služba Azure Private Link.
Sestavy
- Power BI provádí pokročilou analýzu a přehledy zpracovaných dat.