Migrieren lokaler Hadoop-Daten mithilfe von WANdisco LiveData Platform for Azure zu Azure Data Lake Storage
Mit WANdisco LiveData Platform for Azure können Sie Petabytes an lokalen Hadoop-Daten ohne Downtime oder Unterbrechung von Datenvorgängen zu Azure Data Lake Storage-Dateisystemen migrieren. Dank der kontinuierlichen Überprüfungen der Plattform gehen keine Daten verloren, und sie bleiben auf beiden Seiten der Übertragung konsistent, auch wenn sie geändert werden.
Die Plattform umfasst zwei Dienste: LiveData Migrator for Azure für die Migration aktiv genutzter Daten aus lokalen Umgebungen zu Azure Storage und LiveData Plane for Azure zur Sicherstellung der konsistenten Replikation aller geänderten oder erfassten Daten.
Beide Dienste können über das Azure-Portal und über die Azure CLI verwaltet werden. Beide Dienste folgen dem gleichen getakteten Abrechnungsmodell mit nutzungsbasierter Bezahlung wie alle anderen Azure-Dienste: Der Datenverbrauch von LiveData Platform for Azure wird auf der monatlichen Azure-Rechnung ausgewiesen, um Nutzungsmetriken bereitzustellen.
Im Gegensatz zur Offlinemigration von Daten durch Kopieren statischer Informationen in Azure Data Box und zur Verwendung von Hadoop-Tools wie DistCp bleiben Ihre Unternehmenssysteme während der Onlinemigration mit WANdisco LiveData for Azure vollständig funktionsfähig. Ihre Big Data-Umgebungen bleiben auch beim Verschieben der Daten nach Azure in Betrieb.
Wichtige Vorteile von WANdisco LiveData Platform for Azure
Das WAN-fähige Konsensmodul von WANdisco LiveData Platform for Azure sorgt für Datenkonsistenz und führt Echtzeitdatenreplikationen im großen Stil durch. Weitere Informationen erhalten Sie im folgenden Video:
Die Plattform bietet unter anderem folgende Vorteile:
Datengenauigkeit: Die End-to-End-Überprüfung von Daten verhindert Datenverluste und stellt sicher, dass übertragene Daten verwendungsbereit sind.
Datenkonsistenz: Datenvolumes werden automatisch zwischen Umgebungen konsistent gehalten, auch wenn sie sich kontinuierlich ändern.
Dateneffizienz: Große Datenmengen können kontinuierlich und mit vollständiger Kontrolle über die beanspruchte Bandbreite übertragen werden.
Keine Downtime: Daten können während der Migration nach Belieben mit anderen Anwendungen erstellt, geändert, gelesen und gelöscht werden, ohne den Geschäftsbetrieb während der Datenübertragung an Azure unterbrechen zu müssen. Führen Sie Anwendungen, Analyseinfrastrukturen, Erfassungsaufträge und andere Verarbeitungsvorgänge weiterhin aus.
Unkomplizierte Verwendung: Dank der Azure-Integration der Plattform können Sie automatisierte Migrationen erstellen, konfigurieren und planen sowie deren Status nachverfolgen. Bei Bedarf können Sie außerdem eine selektive Datenreplikation, Hive-Metadaten, Datensicherheit und Vertraulichkeit konfigurieren.
Wichtige Funktionen der WANdisco LiveData Platform für Azure
Einige der wichtigsten Funktionen der Plattform:
Metadatenmigration: Neben HDFS-Daten können mithilfe von LiveData Migrator for Azure auch Metadaten (aus Hive und anderen Speichern) migriert werden.
Geplante Übertragung: Mit LiveData Migrator for Azure können Sie steuern und automatisieren, wann die Datenübertragung initiiert wird, sodass Änderungen an Daten nicht manuell migriert werden müssen.
Kerberos: LiveData Migrator for Azure unterstützt kerberisierte Cluster.
Ausschlussvorlagen: In LiveData Migrator for Azure können Regeln erstellt werden, um zu verhindern, dass bestimmte (mithilfe von Globmustern definierte) Dateigrößen oder Dateinamen zu Ihrem Zielspeicher migriert werden. Erstellen Sie Ausschlussvorlagen im Azure-Portal oder mit der CLI, und wenden Sie sie auf eine beliebige Anzahl von Migrationen an.
Pfadzuordnungen: Sie können alternative Zielpfade für bestimmte Zieldateisysteme definieren, damit übertragene Daten automatisch in von Ihnen angegebene Verzeichnisse verschoben werden.
Bandbreitenverwaltung: Sie können die maximale Netzwerkbandbreite konfigurieren, die LiveData Migrator for Azure zur Verfügung stehen soll, um eine Überbeanspruchung von Bandbreite zu verhindern.
Ausschlüsse: Sie können Vorlagenabfragen definieren, um die Migration von Dateien und Verzeichnissen zu verhindern, die den Kriterien entsprechen, was die selektive Migration von Daten aus Ihrem Quellsystem ermöglicht.
Metriken: Sie können Details zur Datenübertragung in LiveData Migrator for Azure anzeigen – etwa die im Laufe der Zeit übertragenen Dateien, ausgeschlossene Pfade oder Elemente mit Übertragungsfehler.
Schnelleres risikofreies Migrieren von Big Data
Der erste Dienst von WANdisco LiveData Platform for Azure ist LiveData Migrator for Azure. Er wird verwendet, um aktiv genutzte Daten aus lokalen Umgebungen zu Azure Storage zu migrieren. Nachdem Sie LiveData Migrator in Ihrem lokalen Hadoop-Cluster bereitgestellt haben, wird automatisch die optimale Konfiguration für Ihr Dateisystem erstellt. Geben Sie anschließend die Kerberos-Details für das System an. Und schon können von LiveData Migrator for Azure Daten zu Azure Storage migriert werden.
Machen Sie sich zunächst mit den Voraussetzungen vertraut, bevor Sie mit der Verwendung von LiveData Migrator for Azure beginnen.
So führen Sie eine Migration durch:
Führen Sie über die Azure CLI folgende Schritte aus:
- Führen Sie über die Azure CLI
az provider register --namespace Wandisco.Fusion --consent-to-permissions
aus, um sich für den WANdisco-Ressourcenanbieter zu registrieren. - Führen Sie
az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>
aus, um die Bedingungen der getakteten Abrechnung von LiveData Platform zu akzeptieren.
- Führen Sie über die Azure CLI
Stellen Sie über das Azure-Portal eine LiveData Migrator-Instanz in Ihrem lokalen Hadoop-Cluster bereit. (Der Cluster muss weder geändert noch neu gestartet werden.)
Hinweis
WANdisco LiveData Migrator for Azure ermöglicht das Erstellen eines Hadoop-Testclusters.
Konfigurieren Sie ggf. Kerberos-Details.
Definieren Sie das Speicherkonto mit aktiviertem Azure Data Lake Storage.
Definieren Sie den Speicherort der Daten, die Sie migrieren möchten. Beispiel:
/user/hive/warehouse
.Starten der Migration
Überwachen Sie den Migrationsfortschritt mithilfe von Azure-Standardtools wie der Azure CLI und dem Azure-Portal.
Bidirektionales Replizieren aktiv geänderter Daten mit LiveData Plane for Azure
Der zweite Dienst von LiveData Platform ist LiveData Plane for Azure. LiveData Plane verwendet das Koordinationsmodul von WANdisco, um Daten in zahlreichen lokalen Hadoop-Clustern und in Azure Storage konsistent zu halten. Hierzu werden Datenänderungen intelligent auf alle Systeme angewendet, um Datenkonflikte an verschiedenen Verwendungspunkten zu verhindern.
Mit LiveData Plane for Azure können Sie Ihre Daten nach der ersten Migration konsistent halten:
Stellen Sie LiveData Plane for Azure lokal und in Azure bereit. Verwenden Sie dazu zunächst das Azure-Portal. Es sind keine Änderungen an Anwendungen erforderlich.
Konfigurieren Sie Replikationsregeln, die die Datenspeicherorte abdecken, die konsistent bleiben sollen. Beispiel:
/user/contoso/sales/region/WA
.Führen Sie Anwendungen aus, die auf Daten an den Speicherorten zugreifen und diese ändern.
LiveData Plane for Azure repliziert Datenänderungen konsistent in allen Umgebungen, ohne dass sich dies signifikant auf den Clusterbetrieb oder die Anwendungsleistung auswirkt.
Testlauf oder Testversion
Auf der Marketplace-Seite von LiveData Platform for Azure stehen zwei Optionen zur Verfügung:
Über die Schaltfläche Jetzt Herunterladen wird der Dienst in Ihrem Abonnement gestartet. Anschließend können Sie Ihren eigenen Hadoop-Cluster oder den WANdisco-Testcluster verwenden.
Wählen Sie Testlaufwerk aus, um LiveData Migrator for Azure in einer für Sie vorkonfigurierten und gehosteten Umgebung zu testen. So können Sie LiveData Migrator for Azure kostenlos und ganz ohne Risiko für Ihre Daten testen, bevor Sie die Lösung Ihrem Abonnement hinzufügen.