Freigeben über


Der Erfassungsprozess mit Analysen auf Cloudebene in Azure

Azure bietet mehrere Dienste zum Erfassen und Veröffentlichen von Daten auf nativen Plattformen und Drittanbieterplattformen. Je nach Volumen, Geschwindigkeit, Vielfalt und Richtung können verschiedene Dienste verwendet werden. Zu diesen Diensten gehören u. a.:

  • Azure Data Factory ist ein Dienst, der für alle Anforderungen von (quellenorientierten) Datenanwendungen und für alle Qualifikationsstufen entwickelt wurde. Schreiben Sie eigenen Code, oder erstellen, extrahieren, laden und transformieren Sie Prozesse innerhalb der intuitiven visuellen Umgebung und ohne Code. Mit mehr als 90 nativ erstellten und wartungsfreien Connectors können Datenquellen ohne zusätzliche Kosten visuell integriert werden. Technische Fachkräfte können private Endpunkte und Private Link-Dienste nutzen, um eine sichere Verbindung mit PaaS-Ressourcen (Platform-as-a-Service) von Azure herzustellen, ohne die öffentlichen Endpunkte der PaaS-Ressource zu verwenden. Technische Fachkräfte können Integration Runtimes verwenden, um Pipelines auf Umgebungen von Drittanbietern, z. B. lokale Datenquellen und andere Clouds, zu erweitern.

Einige dieser Connectors unterstützen die Verwendung als Quelle (Lesen) oder als Senke (Schreiben). Native Azure-Dienste, Oracle, SAP und andere können als Quelle oder Senke verwendet werden, werden jedoch nicht von allen Connectors unterstützt. In diesen Fällen können Sie generische Connectors wie ODBC-Connectors (Open Database Connectivity), das Dateisystem oder SFTP-Connectors (SSH File Transfer Protocol) verwenden.

  • Azure Databricks ist ein schneller und einfacher Analysedienst für die Zusammenarbeit, der auf Apache Spark basiert. Für eine Big Data-Pipeline können Sie Rohdaten oder strukturierte Daten in Batches über Data Factory oder mithilfe von Apache Kafka, Azure Event Hubs oder IoT Hub nahezu in Echtzeit gestreamt in Azure erfassen. Diese Daten werden langfristig in Azure Data Lake Storage gespeichert. Azure Databricks kann im Rahmen des Workflows Daten aus mehreren Datenquellen lesen.

  • Die Microsoft Power Platform stellt Connectors für Hunderte von Diensten bereit, die ereignis-, zeitplan- oder pushgesteuert sein können. Microsoft Power Automate kann auf Ereignisse reagieren und Workflows auslösen, die für einzelne Datensätze oder kleine Datenmengen optimiert sind.

Proprietäre native Tools und Tools von Drittanbietern bieten spezifische Funktionen für die Integration in spezialisierte Systeme und Replikation nahezu in Echtzeit.

  • Azure Data Share unterstützt Organisationen bei der sicheren Freigabe von Daten für mehrere externe Kunden und Partner. Nachdem Sie ein Datenfreigabekonto erstellt und Datenprodukte hinzugefügt haben, können Kunden und Partner zu der Datenfreigabe eingeladen werden. Datenanbieter haben jederzeit die Kontrolle über die Daten, die sie freigegeben haben. Mit Azure Data Share können Sie leicht verwalten und überwachen, welche Daten zu welchem Zeitpunkt und von wem freigegeben werden.

Wichtig

Jede Datenzielzone verfügt über eine Ressourcengruppe für die Metadatenerfassung, die für Unternehmen mit einem datenagnostischen Erfassungsmodul vorhanden ist. Wenn Sie nicht über dieses Framework-Modul verfügen, ist die einzige empfohlene Ressource die Bereitstellung eines Azure Databricks-Analysearbeitsbereichs, der von Datenintegrationen zum Ausführen komplexer Erfassungen verwendet wird. Mögliche Automatisierungsmuster finden Sie unter Datenagnostisches Erfassungsmodul.

Überlegungen zur Erfassung für Azure Data Factory

Wenn Sie über ein datenagnostisches Erfassungsmodul verfügen, sollten Sie eine einzelne Data Factory für jede Datenzielzone in der Erfassungs- und Verarbeitungsressourcengruppe bereitstellen. Der Data Factory-Arbeitsbereich sollte für Benutzer gesperrt werden, und nur verwaltete Identitäten und Dienstprinzipale haben Zugriff für die Bereitstellung. Vorgänge der Datenzielzone sollten über Lesezugriff verfügen, um das Debuggen von Pipelines zu ermöglichen.

Die Datenanwendung kann über eine eigene Data Factory für Datenverschiebungen verfügen. Wenn in jeder Datenanwendungsressourcengruppe eine Data Factory vorhanden ist, werden umfassende CI- und CD-Funktionen (Continuous Integration und Continuous Deployment) unterstützt, indem Pipelines nur über Azure DevOps oder GitHub bereitgestellt werden dürfen.

Alle Data Factory-Arbeitsbereiche verwenden hauptsächlich das verwaltete virtuelle Netzwerk (VNET) in Data Factory oder eine selbstgehostete Integration Runtime für ihre Datenzielzone innerhalb der Datenverwaltungszielzone. Technischen Fachkräften wird empfohlen, das verwaltete VNET zu verwenden, um eine sichere Verbindung mit der Azure-PaaS-Ressource herzustellen.

Es ist jedoch möglich, weitere Integration Runtimes für die Erfassung aus lokalen Umgebungen, Clouds von Drittanbietern und SaaS-Datenquellen (Software-as-a-Service) von Drittanbietern zu erstellen.

Überlegungen zur Erfassung für Azure Databricks

In dieser Anleitung werden die darin enthaltenen Informationen erläutert:

  • Sichern des Zugriffs auf Azure Data Lake Storage Gen2 aus Azure Databricks

  • Best Practices für Azure Databricks

  • Verwendung von Azure Databricks im Rahmen von Analysen auf Cloudebene in Azure

  • Für die Entwicklung sollte das Team für Integrationsvorgänge über eigene Azure Databricks-Umgebungen verfügen, bevor Code eingecheckt wird, der während des Testens und der Produktion im einzelnen Azure Databricks-Arbeitsbereich bereitgestellt werden soll.

  • Die Data Factory in der Ressourcengruppe der (quellenorientierten) Datenanwendung sollte das Framework zum Aufrufen von Azure Databricks-Aufträgen bereitstellen.

  • Dienstprinzipale können beim Einbinden von Data Lakes in diesen Arbeitsbereich hilfreich sein. Weitere Informationen finden Sie unter Pattern 1 - access via service principal (Muster 1 – Zugriff über Dienstprinzipal, in englischer Sprache).

  • Datenanwendungsteams können kurze automatisierte Aufträge in Azure Databricks bereitstellen und erwarten, dass die Cluster schnell gestartet werden, den Auftrag ausführen und beendet werden. Es wird empfohlen, Azure Databricks-Pools einzurichten, um das Starten der Cluster für Aufträge zu beschleunigen.

  • Es wird empfohlen, dass Organisationen Azure DevOps verwenden, um ein Bereitstellungsframework für neue Pipelines zu implementieren. Das Framework wird verwendet, um die Datasetordner zu erstellen, Zugriffssteuerungslisten zuzuweisen und eine Tabelle mit oder ohne Erzwingung von Databricks-Tabellenzugriffssteuerungen zu erstellen.

Datenstromerfassung

Organisationen müssen möglicherweise Szenarien unterstützen, in denen Herausgeber Ereignisdatenströme mit hoher Geschwindigkeit generieren. Für dieses Muster wird eine Nachrichtenwarteschlange empfohlen, z. B. Event Hubs oder IoT Hub, um diese Datenströme zu erfassen.

Event Hubs und IoT Hub sind skalierbare Ereignisverarbeitungsdienste, die große Ereignismengen und Daten mit geringer Latenz und hoher Zuverlässigkeit erfassen und verarbeiten können. Event Hubs dient als Big Data-Streaming- und Ereigniserfassungsdienst. IoT Hub ist ein verwalteter Dienst, der als zentraler Nachrichtenhub für die bidirektionale Kommunikation zwischen einer IoT-Anwendung und den Geräten dient, die von der Anwendung verwaltet werden. Von dort aus können Daten entweder in regelmäßigen Intervallen (Batch) in einen Data Lake exportiert und mit Azure Databricks nahezu in Echtzeit über Apache Spark-Streaming, Azure Data Explorer, Stream Analytics oder Time Series Insights verarbeitet werden.

Die letzte Event Hubs- oder Apache Kafka-Zielzone innerhalb der speziellen Zielzone des Anwendungsfalls sollte ihre aggregierten Daten an die Rohdatenebene des Data Lake in einer der Datenzielzonen und an Event Hubs für die Ressourcengruppe der (quellenorientierten) Datenanwendung in der Datenzielzone senden.

Überwachen der Erfassung

Die vordefinierte Azure Data Factory-Pipelineüberwachung kann zum Überwachen der Data Factory-Pipelines und Beheben von Ausnahmen bei den Pipelines verwendet werden. Dadurch wird der Aufwand für die Entwicklung einer benutzerdefinierten Überwachungs- und Berichterstellungslösung reduziert.

Die integrierte Überwachung ist einer der Hauptgründe für die Verwendung von Azure Data Factory als Hauptorchestrierungstool, und Azure Policy kann bei der Automatisierung dieses Setups hilfreich sein.

Zuordnen von Datenquellen zu Diensten

In diesem Abschnitt werden Erfassungs- und Verarbeitungsdienste Quellen zugeordnet, die in der Regel von Azure erfasst oder freigegeben werden müssen.

Erfassungsdienste:

ID Mechanismus Hinweis
Ein Data Factory Integrierte und generische Connectors (ODBC, SFTP und REST)
B Azure Databricks Benutzerdefinierter Code (u. a. JDBC, JAR)
C Drittanbieter WANdisco, Qlik und Oracle GoldenGate
D Sonstiges Zum Beispiel native Funktionen
E Microsoft Power Platform und Azure Logic Apps Microsoft Power Automate-Connectors

Zuordnung von Datenquellen zu Diensten:

Anbieter type Gehostet Kategorie Hinweise Erfassung mit vollständigem Laden Erfassung mit inkrementellem Laden Echtzeiterfassung Ausgang mit vollständigem Laden Ausgang mit inkrementellem Laden Echtzeitausgang
Oracle Tabellarisch IaaS Datenbank GoldenGate zu Azure Data Lake Storage A, B A, B C A, B A, B C
Microsoft SQL Server Tabellarisch IaaS Datenbank SAP Landscape Transformation und Qlik A, B A, B C, D2 A, B A, B C, D2
MySQL Tabellarisch IaaS Datenbank SAP Landscape Transformation und Qlik A, B A, B C, D2 A, B A, B C, D2
SAP BW/4HANA Tabellarisch IaaS Datenbank SAP Landscape Transformation und Qlik A, B, C, D A, B, C, D C - - -
SAP HANA Tabellarisch IaaS Datenbank SAP Landscape Transformation und Qlik A, B, C, D A, B, C, D C A, B A, B -
Apache Impala Tabellarisch IaaS Datenbank - A, B A, B - B B -
Microsoft SharePoint List SaaS Record Store - A, E A, E E A, E A, E E
REST REST Verschiedene REST XML, JSON, CSV A, B, E A, B, E A, B, E A, B, E A, B, E A, B, E
Microsoft Outlook E-Mail SaaS REST XML, JSON, CSV E E E E E E

Je nach Ziel kann Azure Database Migration Service aus lokalen Datenbanken und Datenbanken von Drittanbietern wie Microsoft SQL Server, PostgreSQL, MySQL oder Oracle in einen Azure-basierten Datenspeicher replizieren.

Nächste Schritte

SAP-Erfassung mit Analysen auf Cloudebene in Azure