Übersicht über Azure Data Lake Storage für Cloud-Skalierungsanalysen

Artikel
10/23/2024

Der Azure Data Lake ist ein hochgradig skalierbarer und sicherer Datenspeicher für Ihre Hochleistungs-Analyseworkloads. Sie können Speicherkonten in einer einzelnen Ressourcengruppe für Cloud-Skalierungsanalysen erstellen. Es wird empfohlen, drei Azure Data Lake Storage Gen2-Konten in einer einzelnen Ressourcengruppe zu erstellen, ähnlich der storage-rg-Ressourcengruppe, die im Artikel cloud-scale analytics architecture data landing zone overview (Übersicht über die Datenzielzone der Cloud-Analytik-Architektur, in englischer Sprache) beschrieben ist.

Jedes Speicherkonto in Ihrer Datenzielzone speichert Daten in einer von drei Phasen, die an einer Medallion-Architektur ausgerichtet sind:

Rohdaten (Bronze)
Angereicherte Daten (Silber) und kuratierte Daten (Gold)
Entwicklungs-Data Lakes

Eine Datenanwendung kann angereicherte und kuratierte Daten aus einem Speicherkonto nutzen, das einen automatisierten Datenagnostik-Erfassungsdienst aufgenommen hat. Sie können eine auf die Quelle ausgerichtete Datenanwendung erstellen, wenn Sie kein Datenagnostikmodul implementieren oder komplexe Verbindungen zum Aufnehmen von Daten aus operativen Quellen vereinfachen. Diese Datenanwendung folgt demselben Fluss wie ein Datenagnostikmodul beim Erfassen von Daten aus externen Datenquellen.

Data Lake Storage Gen2 unterstützt differenzierte Zugriffssteuerungslisten (ACLs), die Daten auf Datei- und Ordnerebene schützen. Zugriffssteuerungslisten können Ihrer Organisation helfen, enge Sicherheitsmaßnahmen für die Authentifizierung und Autorisierung für Datenprodukte zu implementieren:

Sichere Speicherung von Daten über die Verschlüsselung im Ruhezustand.
Zugriffssteuerungen für Microsoft Entra-Benutzer*innen und -Sicherheitsgruppen über die Microsoft Entra-Integration.

Data Lake-Planung

Bei der Planung eines Data Lakes sollten Sie stets Struktur, Governance und Sicherheit angemessen berücksichtigen. Mehrere Faktoren beeinflussen die Struktur und Organisation jedes Data Lake:

Der zu exportierende Datentyp
Die Art der Transformation der Daten
Wer auf seine Daten zugreift
Was ihre typischen Zugriffsmuster sind

Gruppenkunden und Produzenten basierend auf ihren Datenzugriffsanforderungen. Es empfiehlt sich, die Implementierungs- und Zugriffssteuerungsgovernance in Ihrem Data Lake zu planen.

Wenn Ihr Data Lake einige Datenressourcen und automatisierte Prozesse wie Extrahieren, Transformieren, Laden (ETL) enthält, ist Ihre Planung wahrscheinlich ziemlich einfach. Wenn Ihr Data Lake Hunderte von Datenressourcen enthält und automatisierte sowie manuelle Interaktionen erfordert, ist die Planung wahrscheinlich zeitaufwendiger, da viel mehr Zusammenarbeit vonseiten der Datenbesitzer erforderlich ist.

Analogie zum Datensumpf

Ein Datensumpf ist ein nicht verwalteter Data Lake, auf den Benutzer so gut wie keinen Zugriff haben. Datensümpfe treten auf, wenn Sie keine Datenqualitäts- und Datengovernance-Maßnahmen implementieren. Sie können manchmal einen Datensumpf in einem Data Warehouse mit vorhandenen Hybridmodellen sehen.

Ordnungsgemäße Governance und Organisation verhindern Datensümpfe. Wenn Sie ein solides Fundament für Ihren Data Lake erstellen, erhöht sich die Chance auf nachhaltigen Erfolg und Geschäftswert des Data Lake.

Mit zunehmender Größe, Komplexität, Anzahl der Datenbestände und Anzahl der Benutzer oder Abteilungen Ihres Data Lakes wird ein robustes Datenkatalogsystem für Sie immer wichtiger. Ihr Datenkatalogsystem stellt sicher, dass Ihre Benutzer Daten finden, kennzeichnen und klassifizieren können, während sie Ihren Data Lake verarbeiten, nutzen und steuern.

Weitere Informationen finden Sie unter Übersicht über Datengovernance.

Speicherkonten in einem logischen Data Lake

Überlegen Sie, ob Ihre Organisation ein oder mehrere Speicherkonten benötigt, und überlegen Sie, welche Dateisysteme Sie benötigen, um Ihren logischen Data Lakes zu erstellen. Eine einzelne Speichertechnologie bietet mehrere Methoden für den Datenzugriff und hilft Ihnen bei der Standardisierung in Ihrer gesamten Organisation.

Data Lake Storage Gen2 ist eine vollständig verwaltete Plattform als Service (PaaS). Mehrere Speicherkonten oder Dateisysteme können erst dann Kosten verursachen, wenn auf Daten zugegriffen wird oder diese gespeichert werden. Bei jeder Azure-Ressource fällt aufgrund von Bereitstellung, Sicherheit und Governance administrativer und betrieblicher Aufwand an. Dies schließt auch Sicherungen und die Notfallwiederherstellung mit ein.

Hinweis

In jeder Datenzielzone werden drei Data Lakes veranschaulicht. Je nach Ihren Anforderungen können Sie jedoch die rohen, angereicherten und kuratierten Ebenen in einem Speicherkonto konsolidieren. Sie können ein weiteres Speicherkonto namens „Entwicklung“ erstellen, in dem Datenkunden andere nützliche Datenprodukte mitbringen können.

Berücksichtigen Sie bei der Entscheidung zwischen einem konsolidierten oder drei Speicherkontoansatz die folgenden Faktoren:

Isolation von Datenumgebungen und Vorhersagbarkeit.
- Sie können ggf. Aktivitäten isolieren, die in der rohen Zone und in der Entwicklungszone ausgeführt werden, um mögliche Auswirkungen auf die kuratierte Zone zu vermeiden, in der Daten mit hohem geschäftlichem Nutzen gespeichert sind, die für kritische Entscheidungen benötigt werden.
Features und Funktionen auf Speicherkontoebene.
- Sie können wählen, ob Lebenszyklusverwaltungsoptionen oder Firewallregeln auf der Ebene der Datenzielzone oder auf Data Lake-Ebene angewendet werden müssen.
- Erstellen Sie mehrere Speicherkonten, aber nicht unerwünschte Silos.
- Vermeiden Sie das Erstellen doppelter Datenprojekte aufgrund mangelnder Transparenz oder mangelhaften Informationsaustauschs in Ihrer Organisation.
- Stellen Sie sicher, dass Sie über gute Datengovernance, Projektverfolgungstools und einen Datenkatalog verfügen.
Interaktion von Datenverarbeitungstools und -technologien mit Daten über mehrere Lakes basierend auf den konfigurierten Berechtigungen
Regionale und globale Lakes
- Global verteilte Consumer oder Prozesse im Lake sind möglicherweise anfällig für Latenz, die durch geografische Entfernungen verursacht wird.
- Das lokale Speichern von Daten ist eine bewährte Methode.
- Gesetzliche Auflagen und Datenhoheit können dazu führen, dass Daten in einer bestimmten Region verbleiben müssen.
- Weitere Informationen finden Sie unter Bereitstellungen in mehreren Regionen.

Bereitstellungen in mehreren Regionen

Wenn Sie von Datenresidenz-Regeln oder einer Anforderung bestimmt werden, dass Sie Daten in der Nähe einer Benutzerbasis behalten, müssen Sie möglicherweise Azure Data Lake-Konten in mehreren Azure-Regionen erstellen. Sie müssen eine Datenzielzone in einer einzelnen Region erstellen und dann globale Daten mithilfe von AzCopy, Azure Data Factory oder Produkten replizieren. Lokale Daten bleiben in der Region, während globale Daten über mehrere Regionen hinweg repliziert werden.

Nächste Schritte

Data Lake-Zeezonen und Container

Freigeben über