Der Erfassungsprozess mit Analysen auf Cloudebene in Azure

Artikel
2025-01-24

Azure bietet mehrere Dienste zum Aufnehmen und Freigeben von Daten an systemeigene und Drittanbieterplattformen. Je nach Volumen, Geschwindigkeit, Sorte und Richtung können unterschiedliche Dienste verwendet werden. Einige dieser Dienste sind:

Azure Data Factory ist ein Dienst, der für alle Anforderungen von (quellenorientierten) Datenanwendungen und für alle Qualifikationsstufen entwickelt wurde. Schreiben Sie eigenen Code, oder erstellen, extrahieren, laden und transformieren Sie Prozesse innerhalb der intuitiven visuellen Umgebung und ohne Code. Mit über 90 systemeigenen und wartungsfreien Anschlüssen integrieren Sie Datenquellen visuell ohne zusätzliche Kosten. Techniker können private Endpunkte verwenden und Dienste verknüpfen, um eine sichere Verbindung mit Azure-Plattform as a Service -Ressourcen (PaaS) herzustellen, ohne die öffentlichen Endpunkte der PaaS-Ressource zu verwenden. Technische Fachkräfte können Integration Runtimes verwenden, um Pipelines auf Umgebungen von Drittanbietern, z. B. lokale Datenquellen und andere Clouds, zu erweitern.

Einige dieser Connectors unterstützen die Verwendung als Quelle (Lesen) oder als Senke (Schreiben). Native Azure-Dienste, Oracle, SAP und andere können als Quelle oder Senke verwendet werden, werden jedoch nicht von allen Connectors unterstützt. In diesen Fällen können Sie generische Connectoren wie Open Database Connectivity (ODBC), das Dateisystem oder SSH File Transfer Protocol (SFTP)-Connectoren verwenden.

Azure Databricks ist ein schneller, einfacher und kollaborativer Apache-Spark-basierter Analysedienst. Für eine Big Data-Pipeline können Sie Rohdaten oder strukturierte Daten in Batches über Data Factory oder mithilfe von Apache Kafka, Azure Event Hubs oder IoT Hub nahezu in Echtzeit gestreamt in Azure erfassen. Diese Daten werden langfristig in Azure Data Lake Storage gespeichert. Azure Databricks können Daten aus mehreren Datenquellen als Teil des Workflows lesen.
Die Microsoft Power Platform stellt Connectors für Hunderte von Diensten bereit, die ereignis-, zeitplan- oder pushgesteuert sein können. Microsoft Power Automate kann auf Ereignisse reagieren und Workflows auslösen, die für einzelne Datensätze oder kleine Datenvolumes optimiert sind.

Proprietäre native Tools und Tools von Drittanbietern bieten spezifische Funktionen für die Integration in spezialisierte Systeme und Replikation nahezu in Echtzeit.

Azure Data Share unterstützt Organisationen, Daten sicher mit mehreren externen Kunden und Partnern zu teilen. Nachdem Sie ein Datenfreigabekonto erstellt und Datenprodukte hinzugefügt haben, können Kund*innen und Partner in die Datenfreigabe eingeladen werden. Datenanbieter haben immer die Kontrolle über die Daten, die sie freigegeben haben. Azure Data Share macht es einfach, zu verwalten und zu überwachen, welche Daten freigegeben werden, wann sie freigegeben wurden und wer sie freigegeben hat.

Wichtig

Jede Datenzielzone kann eine Datenerfassungressourcengruppe haben, die für Unternehmen mit einem datenagnostischen Erfassungsmodul vorhanden ist. Wenn Sie nicht über dieses Framework-Modul verfügen, ist die einzige empfohlene Ressource die Bereitstellung eines Azure Databricks-Analysearbeitsbereichs, der von Datenintegrationen zum Ausführen komplexer Erfassungen verwendet wird. Mögliche Automatisierungsmuster finden Sie unter Datenagnostisches Erfassungsmodul.

Überlegungen zur Erfassung für Azure Data Factory

Wenn Sie über ein datenagnostisches Erfassungsmodul verfügen, sollten Sie für jede Datenzielzone innerhalb der Datenerfassungsressourcengruppe eine einzelne Data Factory einrichten. Der Data Factory-Arbeitsbereich sollte für Benutzer*innen gesperrt werden, und nur verwaltete Identitäten und Dienstprinzipale dürfen Zugriff für die Bereitstellung haben. Vorgänge der Datenzielzone sollten über Lesezugriff verfügen, um das Debuggen von Pipelines zu ermöglichen.

Datenanwendungen können über eine eigene Data Factory für den Datentransfer verfügen. Wenn in jeder Datenanwendungsressourcengruppe eine Data Factory vorhanden ist, werden umfassende CI- und CD-Funktionen (Continuous Integration und Continuous Deployment) unterstützt, indem Pipelines nur über Azure DevOps oder GitHub bereitgestellt werden dürfen.

Alle Data Factory-Arbeitsbereiche verwenden hauptsächlich das verwaltete virtuelle Netzwerk (VNET) in Data Factory oder eine selbstgehostete Integration Runtime für ihre Datenzielzone innerhalb der Datenverwaltungszielzone. Techniker werden ermutigt, die verwaltete VNet-Funktion zu verwenden, um eine sichere Verbindung mit der Azure PaaS-Ressource herzustellen.

Es ist jedoch möglich, zusätzliche Integrationsruntimes zu erstellen, um Daten von lokalen Systemen, Drittanbieter-Clouds und SaaS-Datenquellen zu übernehmen.

Überlegungen zur Erfassung für Azure Databricks

In diesem Leitfaden werden die darin enthaltenen Informationen erläutert:

Sichern des Zugriffs auf Azure Data Lake Storage Gen2 aus Azure Databricks
bewährte Methoden für Azure Databricks
Für die Entwicklung sollte das Team für Integrationsvorgänge über eigene Azure Databricks-Umgebungen verfügen, bevor Code eingecheckt wird, der während des Testens und der Produktion im einzelnen Azure Databricks-Arbeitsbereich bereitgestellt werden soll.
Die Data Factory in der Ressourcengruppe der (quellenorientierten) Datenanwendung sollte das Framework zum Aufrufen von Azure Databricks-Aufträgen bereitstellen.
Datenanwendungen-Teams können kurze, automatisierte Aufträge in Azure Databricks bereitstellen und erwarten, dass ihre Cluster schnell beginnen, den Auftrag ausführen und beenden. Es wird empfohlen, Azure Databricks-Pools einzurichten, um die Zeit zu verkürzen, die Cluster benötigen, um für Aufträge einsatzbereit zu sein.
Wir empfehlen Organisationen, Azure DevOps zur Implementierung eines Bereitstellungsframeworks für neue Pipelines zu verwenden. Das Framework wird verwendet, um die Datasetordner zu erstellen, Zugriffssteuerungslisten zuzuweisen und eine Tabelle mit oder ohne Erzwingung von Databricks-Tabellenzugriffssteuerungen zu erstellen.

Datenstromerfassung

Organisationen müssen möglicherweise Szenarien unterstützen, in denen Herausgeber Ereignisdatenströme mit hoher Geschwindigkeit generieren. Für dieses Muster wird eine Nachrichtenwarteschlange empfohlen, z. B. Event Hubs oder IoT Hub, um diese Datenströme zu erfassen.

Event Hubs und IoT Hub sind skalierbare Ereignisverarbeitungsdienste, die große Ereignisvolumes und -daten mit geringer Latenz und hoher Zuverlässigkeit aufnehmen und verarbeiten können. Event Hubs ist als Big Data Streaming- und Ereignisaufnahmedienst konzipiert. IoT Hub ist ein verwalteter Dienst, der als zentraler Nachrichtenhub für bidirektionale Kommunikation zwischen einer IoT-Anwendung und den verwalteten Geräten dient. Ab dort können Daten entweder in regelmäßigen Intervallen (Batch) in einen Data Lake exportiert und nahezu in Echtzeit mit Azure Databricks über Apache Spark Streaming, Azure Data Explorer, Stream Analytics oder Time Series Insights verarbeitet werden.

Die letzte Event Hubs- oder Apache Kafka-Zielzone innerhalb der speziellen Zielzone des Anwendungsfalls sollte ihre aggregierten Daten an die Rohdatenebene des Data Lake in einer der Datenzielzonen und an Event Hubs für die Ressourcengruppe der (quellenorientierten) Datenanwendung in der Datenzielzone senden.

Aufnahme überwachen

Die vordefinierte Azure Data Factory-Pipelineüberwachung kann zum Überwachen der Data Factory-Pipelines und Beheben von Ausnahmen bei den Pipelines verwendet werden. Dadurch wird der Aufwand für die Entwicklung einer benutzerdefinierten Überwachungs- und Berichterstellungslösung reduziert.

Die integrierte Überwachung ist einer der Hauptgründe für die Verwendung von Azure Data Factory als Hauptorchestrierungstool, und Azure Policy kann dazu beitragen, diese Einrichtung zu automatisieren.

Nächste Schritte

SAP-Erfassung mit Analysen auf Cloudebene in Azure

Freigeben über