Freigeben über


Datenlandungszonen

Datenzielzonen sind mit Ihrer Datenverwaltungs-Zielzone durch Peering virtueller Netzwerke oder private Endpunkte verbunden. Jede Datenzielzone gilt als Zielzone im Zusammenhang mit Architektur der Azure-Zielzone.

Wichtig

Stellen Sie vor der Bereitstellung einer Datenlandungszone sicher, dass Ihr DevOps- und CI/CD-Betriebsmodell vorhanden ist und eine Datenverwaltungslandungszone bereitgestellt wird.

Jede Datenlandungszone verfügt über mehrere Ebenen, die Flexibilität für die darin enthaltenen Dienstdatenintegrationen und Datenanwendungen ermöglichen. Sie können eine neue Datenlandungszone mit einem Standardsatz von Diensten bereitstellen, mit denen die Datenlandungszone beginnen kann, Daten aufzunehmen und zu analysieren.

Ein typisches Azure-Abonnement, das einer Datenlandungszone zugeordnet ist, weist die folgende Struktur auf:

Ebene Erforderlich Ressourcengruppen
Plattformdiensteschicht Ja
Kerndienste Ja
Datenanwendung Optional
Berichterstattung und Visualisierung Optional

Anmerkung

Während die Core Services-Ebene als erforderlich gekennzeichnet ist, sind möglicherweise nicht alle in diesem Artikel enthaltenen Ressourcengruppen und Dienste für Ihre Datenlandungszone erforderlich.

Architektur der Datenzielzone

Die Architektur der Datenlandzone veranschaulicht die Ebenen, ihre Ressourcengruppen und die Dienste, die jede Ressourcengruppe enthält. Die Architektur bietet einen Überblick über alle Gruppen und Rollen, die Ihrer Datenzielzone zugeordnet sind, und den Umfang des Zugriffs auf Ihre Steuerungs- und Datenebenen. Die Architektur veranschaulicht auch, wie jede Ebene mit den Verantwortlichkeiten des Operativen Modells übereinstimmt.

Diagramm der Datenlandungszonenarchitektur.

Tipp

Bevor Sie eine Datenlandungszone bereitstellen, stellen Sie sicher, dass Sie die Anzahl der anfänglichen Datenlandungszonen berücksichtigen, die Siebereitstellen möchten.

Plattformdienste

Die Plattformdienstebene umfasst Dienste, die erforderlich sind, um die Konnektivität und Überwachbarkeit Ihrer Datenlandungszone im Kontext von Cloud-basierten Analysen im großen Maßstab sicherzustellen. In der folgenden Tabelle sind die empfohlenen Ressourcengruppen aufgeführt.

Ressourcengruppe Erforderlich Beschreibung
network-rg Ja Vernetzung
security-rg Ja Sicherheit und Überwachung

Vernetzung

Die Netzwerkressourcengruppe enthält Konnektivitätsdienste, einschließlich Azure Virtual Networks, Netzwerksicherheitsgruppen (NSG) und Routetabellen. Alle diese Dienste werden in einer einzelnen Ressourcengruppe bereitgestellt.

Zwischen dem virtuellen Netzwerk Ihrer Datenzielzone und dem virtuellen Netzwerk Ihrer Datenverwaltungszone sowie dem virtuellen Netzwerk Ihres Konnektivitätsabonnements erfolgt automatisch Peering.

Sicherheit und Überwachung

Die Ressourcengruppe "Sicherheit und Überwachung" umfasst Azure Monitor und Microsoft Defender für Cloud, um Diensttelemetrie zu sammeln, Überwachungskriterien und Warnungen zu definieren und Richtlinien und Überprüfungen auf Dienste anzuwenden.

Kerndienste

Die Kerndienstebene umfasst grundlegende Dienste, die erforderlich sind, um Ihre Datenzielzone im Kontext von Analysen auf Cloudebene zu unterstützen. In der folgenden Tabelle sind die Ressourcengruppen aufgeführt, die die Standardsuite der verfügbaren Dienste in jeder von Ihnen bereitgestellten Datenlandungszone bereitstellen.

Ressourcengruppe Erforderlich Beschreibung
storage-rg Ja Data Lake-Dienste
runtimes-rg Ja Freigegebene Integration Runtimes
mgmt-rg Ja CI/CD-Agenten
external-data-rg Ja Externer Datenspeicher
data-ingestion-rg Optional Geteilte Datenerfassungsdienste
shared-applications-rg Optional Freigegebene Anwendungen (Synapse oder Databricks)

Lagerung

Wie im Diagramm dargestellt, werden drei Azure Data Lake Storage Gen2-Konten in einer einzelnen Ressourcengruppe für Data Lake-Dienste bereitgestellt. Daten, die in verschiedenen Stufen umgewandelt werden, werden in einem der Data Lakes Ihrer Datenzielzone gespeichert. Die Daten stehen für die Nutzung durch Ihre Analyse-, Data Science- und Visualisierungsteams zur Verfügung.

Datalake-Ebenen verwenden je nach Technologie und Anbieter eine unterschiedliche Terminologie. In dieser Tabelle finden Sie Anleitungen zum Anwenden von Bedingungen für Analysen auf Cloudebene:

Analysen auf Cloudebene Delta Lake Andere Begriffe Beschreibung
Roh Bronze Landung und Konformität Erfassungstabellen
Angereichert Silber Standardisierungszone Optimierte Tabellen. Gespeicherte vollständige Entität, verbrauchsfähige Recordsets aus Systemen des Datensatzes.
Kuratiert Gold Produktzone Feature oder aggregierte Tabellen. Primäre Zone für Anwendungen, Teams und Benutzer für die Nutzung von Datenprodukten.
Entwicklung -- Entwicklungszone Standort für Dateningenieure und Wissenschaftler, bestehend aus einer Analyse-Sandbox und einer Produktentwicklungszone.

Anmerkung

Im vorherigen Diagramm verfügt jede Datenzielzone über drei Data Lake-Speicherkonten. Je nach Ihren Anforderungen können Sie jedoch Ihre Roh-, angereicherten und kuratierten Datenebenen in einem Speicherkonto konsolidieren und ein weiteres Speicherkonto 'Arbeitsbereich' für Datennutzer verwalten, damit diese andere nützliche Datenprodukte einbringen können.

Weitere Informationen finden Sie unter:

Freigegebene Integration Runtimes

Azure Data Factory - und Azure Synapse Analytics-Pipelines verwenden Integration Runtimes (IR), um sicher auf Datenquellen in gekoppelten oder isolierten Netzwerken zuzugreifen. Freigegebene IRs sollten auf einem virtuellen Computer (oder Azure Virtual Machine Scale Sets) in der Ressourcengruppe der freigegebenen Integration Runtime bereitgestellt werden.

So aktivieren Sie die freigegebene Ressourcengruppe:

Anmerkung

Die Bereitstellung beschreibt eine Bereitstellung eines einzelnen virtuellen Computers, mit einer selbstgehostete Integration Runtime. Sie können eine lokal gehostete Integrationsruntime mit mehreren virtuellen Maschinen vor Ort oder in Azure verknüpfen. Diese Computer werden als Knoten bezeichnet, und Sie können bis zu vier Knoten einer selbst gehosteten Integrationslaufzeit zugeordnet haben. Die Vorteile mehrerer Knoten sind:

  • Höhere Verfügbarkeit der selbst gehosteten Integrationslaufzeit, sodass sie nicht mehr der einzige Fehlerpunkt in Ihrer Datenanwendung oder in der Orchestrierung der Clouddatenintegration ist.
  • Verbesserte Leistung und Durchsatz während der Datenverschiebung zwischen lokalen und Clouddatendiensten. Informieren Sie sich über Leistungsvergleiche.

Sie können mehrere Knoten zuordnen, indem Sie die Software für die selbstgehostete Integration Runtime aus dem Downloadcenter installieren. Registrieren Sie sie dann mit einem der vom New-AzDataFactoryV2IntegrationRuntimeKey-Cmdlet abgerufenen Authentifizierungsschlüssel, wie im Tutorial beschrieben.

Weitere Informationen sind in Azure Data Factory Hohe Verfügbarkeit und Skalierbarkeitdetailliert beschrieben.

Wichtig

Stellen Sie gemeinsam genutzte Integrationslaufzeiten so nah wie möglich an der Datenquelle bereit. Vorausgesetzt, dass der virtuelle Computer über eine Verbindung zu den erforderlichen Datenquellen verfügt, können Sie die Integrationsruntimes in einer Datenlandezone, in Clouds von Drittanbietern oder in einer privaten Cloud bereitstellen.

Verwaltung

CI/CD-Agenten werden auf virtuellen Computern ausgeführt und helfen bei der Bereitstellung von Artefakten aus dem Quellcode-Repository, einschließlich Datenanwendungen und Änderungen an den Datenzielzonen.

Weitere Informationen finden Sie unter Azure-Pipeline-Agenten.

Externer Speicher

Partnerdatenanbieter müssen Daten in Ihrer Plattform landen, damit Ihre Datenanwendungsteams sie in ihre Data Lakes ziehen können. Sie können auch interne oder externe Datenquellen haben, die die Konnektivitäts- oder Authentifizierungsanforderungen nicht unterstützen können, die über die restlichen Datenlandezonen hinweg erzwungen werden. Die Verwendung eines separaten Speicherkontos ist der empfohlene Ansatz zum Empfangen von Daten. Dann wird eine gemeinsame Integration Runtime oder ein ähnlicher Erfassungsprozess verwendet, um sie in Ihre Verarbeitungspipeline zu integrieren. Wie im folgenden Diagramm dargestellt, lässt Sie Ihre Upload-Erfassungsspeicherressourcengruppe Blobspeicher für diese Anwendungsfälle bereitstellen.

Die Datenanwendungsteams fordern die Speicherblobs an. Diese Anforderungen werden vom Betriebsteam der Datenzielzone genehmigt. Daten sollten aus dem Quellspeicherblob gelöscht werden, nachdem sie im Rohdatenspeicher erfasst wurden.

Wichtig

Da Azure Storage-Blobs nach Bedarf bereitgestellt werden, sollten Sie zunächst eine leere Speicherdienst-Ressourcengruppe in jeder Datenzielzone bereitstellen.

Datenaufnahme

Diese Ressourcengruppe ist optional und hindert Sie nicht daran, Ihre Zielzone bereitzustellen. Dies ist anwendbar, wenn Sie über ein datenagnostisches Erfassungsmodul verfügen oder dieses entwickeln, das automatisch Daten basierend auf registrierten Metadaten erfasst, einschließlich Datenbankverbindungszeichenfolgen, Pfaden für die Datenübertragung und Erfassungszeitplänen.

Die Erfassungs- und Verarbeitungsressourcengruppe verfügt über wichtige Dienste für diese Art von Framework.

Stellen Sie eine Azure SQL-Datenbankinstanz bereit, um metadaten zu speichern, die von Azure Data Factory verwendet werden. Richten Sie einen Azure Key Vault ein, um Geheimnisse im Zusammenhang mit automatisierten Eingabediensten zu speichern. Diese Geheimnisse können Folgendes umfassen:

  • Metastore-Anmeldeinformationen von Azure Data Factory
  • Dienstprinzipal-Anmeldeinformationen für Ihren automatisierten Erfassungsprozess

Weitere Informationen finden Sie unter Unterstützung der Analysen auf Cloudebene in Azure durch Frameworks zur automatisierten Erfassung.

Zu den in dieser Ressourcengruppe enthaltenen Diensten gehören:

Dienst Erforderlich Leitlinien
Azure Data Factory Ja Azure Data Factory ist Ihr Orchestrierungsmodul für datenagnostische Erfassung.
Azure SQL-Datenbank Ja Azure SQL DB ist der Metastore für Azure Data Factory.
Event Hubs oder IoT Hub Optional Event Hubs oder IoT Hub können Echtzeitstreaming zu Event Hubs sowie Batch- und Streaming-Verarbeitung über einen Databricks Engineering-Arbeitsbereich bieten.
Azure Databricks Optional Sie können Azure Databricks oder Azure Synapse Spark für die Verwendung mit Ihrem datenagnostischen Erfassungsmodul bereitstellen.
Azure Synapse Optional Sie können Azure Databricks oder Azure Synapse Spark für die Verwendung mit Ihrem datenagnostischen Erfassungsmodul bereitstellen.

Freigegebene Anwendungen

Diese optionale Ressourcengruppe wird verwendet, wenn eine Reihe von gemeinsamen Diensten für alle Teams zur Verfügung gestellt werden muss, die Datenanwendungen in dieser Datenzielzone erstellen. Beispielhafte Verwendungen sind:

  • Ein Azure Databricks-Arbeitsbereich, der als freigegebener Metastore für alle anderen Databricks-Arbeitsbereiche verwendet wird, die in derselben Datenlandezone (oder Region) erstellt wurden
  • Eine freigegebene Azure Synapse Analytics-Instanz mit Serverless SQL Pools, damit Benutzer isolierte Speicherkonten abfragen können.

Anmerkung

Azure Databricks verwendet Unity-Katalog, um den Zugriff und die Sichtbarkeit von Metastores in Databricks-Arbeitsbereichen zu steuern. Unity Catalog wird auf Mandantenebene aktiviert, Metastores werden jedoch auf Azure-Regionen abgestimmt. In der Praxis bedeutet dies, dass alle mit dem Unity-Katalog aktivierten Databricks-Arbeitsbereiche in einer bestimmten Azure-Region sich beim gleichen Metastore registrieren müssen. Weitere Informationen finden Sie unter Bewährte Methoden für Unity Catalog.

Befolgen Sie bewährte Methoden für die Cloudanalyse, um Azure Databricks zu integrieren:

Datenanwendung

Jede Datenlandungszone kann über mehrere Datenanwendungen verfügen. Sie können diese Anwendungen erstellen, indem Sie Daten aus verschiedenen Quellen aufnehmen. Sie können auch Datenanwendungen aus anderen Datenanwendungen innerhalb derselben Datenlandungszone oder aus anderen Datenlandungszonen erstellen. Die Erstellung der Datenanwendungen unterliegt der Datenverantwortlichengenehmigung.

Ressourcengruppe für Datenanwendungen

Ihre Datenanwendungsressourcengruppe enthält alle Dienste, die zum Erstellen dieser Datenanwendung erforderlich sind. Beispielsweise ist eine Azure-Datenbank für MySQL erforderlich, die von einem Visualisierungstool verwendet wird. Daten müssen aufgenommen und transformiert werden, bevor sie in diese MySQL-Datenbank gelangen. In diesem Fall können Sie Azure Database for MySQL und eine Azure Data Factory in der Ressourcengruppe der Datenanwendung bereitstellen.

Tipp

Wenn Sie sich entscheiden, kein datenagnostisches Modul für die einmalige Erfassung aus betrieblichen Quellen zu implementieren oder wenn komplexe Verbindungen in Ihrem datenagnostischen Modul nicht erleichtert werden, erstellen Sie eine quellenorientierte Datenanwendung. Weitere Informationen finden Sie unter Datenanwendungen (quellenausgerichtet).

Weitere Informationen zum Onboarding von Datenprodukten finden Sie unter Datenanwendungen für Analysen auf Cloudebene in Azure.

Berichterstellung und Visualisierung

Sie können Visualisierungs- und Berichterstellungstools in Fabric-Arbeitsbereichen verwenden, die viele Ähnlichkeiten mit Power BI-Arbeitsbereichen aufweisen, ohne in Ihrer Datenlandzone eindeutige Ressourcen bereitstellen zu müssen. Sie können eine Ressourcengruppe hinzufügen, um Fabric-Kapazität, virtuelle Maschinen für Datengateways oder andere erforderliche Datendienste bereitzustellen und Ihre Datenanwendung an den Endbenutzer*innen auszuliefern.

Nächste Schritte