Übertragen von Daten in und aus Azure
Daten können auf verschiedene Arten in und aus Azure übertragen werden. Für welche Option Sie sich entscheiden, hängt ganz von Ihren Anforderungen ab.
Physische Übertragung
In folgenden Fällen empfiehlt sich die Verwendung physischer Hardware für die Übertragung von Daten in Azure:
- Ihr Netzwerk ist langsam oder unzuverlässig.
- Zusätzliche Netzwerkbandbreite ist zu teuer.
- Sicherheits- oder Organisationsrichtlinien lassen keine ausgehenden Verbindungen zu, wenn es um vertrauliche Daten geht.
Wenn es Ihnen hauptsächlich auf die Übertragungsgeschwindigkeit Ihrer Daten ankommt, sollten Sie testen, ob die Netzwerkübertragung langsamer ist als der physische Transport.
Für den physischen Transport von Daten in Azure stehen zwei Hauptoptionen zur Verfügung:
Der Azure Import/Export-Dienst
Der Azure Import/Export-Dienst ermöglicht die sichere Übertragung großer Datenmengen in Azure Blob Storage oder Azure Files durch den Versand interner SATA-Festplattenlaufwerke (HDDs) oder -SDDs an ein Azure-Rechenzentrum. Mit diesem Dienst können Sie auch Daten aus Azure Storage auf Festplattenlaufwerke übertragen und sich die Laufwerke zusenden lassen, um sie lokal zu laden.
Azure Data Box
Azure Data Box ist eine von Microsoft bereitgestellte Appliance, die ganz ähnlich funktioniert wie der Import/Export-Dienst. Mit Data Box schickt Microsoft Ihnen eine proprietäre, sichere und manipulationsgeschützte Übertragungsappliance und kümmert sich um die gesamte Logistik, die Sie im Portal nachverfolgen können. Ein Vorteil von Data Box ist die hohe Benutzerfreundlichkeit. Sie müssen nicht mehrere Festplatten kaufen, vorbereiten und die Dateien auf die einzelnen Festplatten übertragen. Data Box wird von zahlreichen branchenführenden Azure-Partnern unterstützt, um in ihren Produkten den nahtlosen Offlinetransport in die Cloud zu erleichtern.
Befehlszeilentools und APIs
Erwägen Sie die Verwendung dieser Optionen, wenn Sie eine skript- und programmgesteuerte Datenübertragung benötigen:
Die Azure-Befehlszeilenschnittstelle (Azure CLI) ist ein plattformübergreifendes Tool, mit dem Sie Azure-Dienste verwalten und Daten in Storage hochladen können.
AzCopy. Verwenden Sie AzCopy an einer Befehlszeile unter Windows oder Linux, um Daten ganz einfach und mit optimaler Leistung aus bzw. in Blob Storage, Azure File Storage und Azure Table Storage zu kopieren. AzCopy unterstützt Nebenläufigkeit und Parallelität sowie die Fortsetzung unterbrochener Kopiervorgänge. Sie können auch AzCopy zum Kopieren von Daten aus AWS in Azure nutzen. Für den programmgesteuerten Zugriff nutzt AzCopy die Microsoft Azure Storage Data Movement-Bibliothek als Kernframework. Diese wird als .NET Core-Bibliothek bereitgestellt.
Bei Verwendung von PowerShell ist das PowerShell-Cmdlet „Start-AzureStorageBlobCopy“ eine Option für Windows-Administratoren mit PowerShell-Erfahrung.
AdlCopy ermöglicht das Kopieren von Daten aus Blob Storage in Azure Data Lake Storage. Diese Option kann auch zum Kopieren von Daten zwischen zwei Data Lake Storage-Konten verwendet werden. Sie kann jedoch nicht verwendet werden, um Daten aus Data Lake Storage in Blob Storage zu kopieren.
Distcp wird verwendet, um Daten aus einem HDInsight-Clusterspeicher (WASB) in ein Data Lake Storage-Konto zu kopieren.
Sqoop ist ein Apache-Projekt und Teil des Hadoop-Ökosystems. Es ist auf allen HDInsight-Clustern vorinstalliert. Mit Sqoop können Sie Daten zwischen einem HDInsight-Cluster und relationalen Datenbanken wie SQL, Oracle und MySQL übertragen. Bei Sqoop handelt es sich um eine Sammlung verwandter Tools, die auch Import- und Exporttools umfasst. Sqoop kann mit HDInsight-Clustern verwendet werden – entweder unter Verwendung von Blob Storage oder unter Verwendung von angefügtem Data Lake Storage-Speicher.
PolyBase ist eine Technologie, die über die T-SQL-Sprache auf Daten außerhalb einer Datenbank zugreift. In SQL Server 2016 können Sie mit PolyBase Abfragen für externe Daten in Hadoop ausführen oder Daten aus Blob Storage importieren/exportieren. In Azure Synapse Analytics können Sie Daten aus Blob Storage und Data Lake Storage importieren bzw. exportieren. PolyBase ist derzeit die schnellste Methode, um Daten in Azure Synapse Analytics zu importieren.
Verwenden Sie die Hadoop-Befehlszeile, wenn Sie Daten haben, die sich auf einem Hauptknoten eines HDInsight-Clusters befinden. Sie können diese Daten mithilfe des Befehls
hadoop -copyFromLocal
in den angefügten Speicher Ihres Clusters (beispielsweise Blob Storage oder Data Lake Storage) kopieren. Um den Hadoop-Befehl verwenden zu können, müssen Sie zunächst eine Verbindung mit dem Hauptknoten herstellen. Anschließend können Sie eine Datei in den Speicher hochladen.
Grafische Benutzeroberfläche
Erwägen Sie die folgenden Optionen, wenn Sie nur wenige Dateien oder Datenobjekte übertragen und den Vorgang nicht automatisieren müssen.
Der Azure Storage-Explorer ist ein plattformübergreifendes Tool zur Verwaltung der Inhalte Ihrer Azure Storage-Konten. Mit diesem Tool können Sie Blobs, Dateien, Warteschlangen, Tabellen und Azure Cosmos DB-Entitäten hochladen, herunterladen und verwalten. Verwenden Sie es zusammen mit Blob Storage, um Blobs und Ordner zu verwalten und Blobs zwischen Ihrem lokalen Dateisystem und Blob Storage oder zwischen Speicherkonten hoch- und herunterzuladen.
Azure-Portal. Blob Storage und Data Lake Storage bieten eine webbasierte Oberfläche zum Erkunden von Dateien sowie zum Hochladen neuer Dateien. Diese Option empfiehlt sich, wenn Sie Ihre Dateien schnell erkunden möchten, ohne Tools zu installieren oder Befehle auszuführen, oder wenn Sie nur wenige neue Dateien hochladen möchten.
Datensynchronisierung und Pipelines
Der verwaltete Dienst Azure Data Factory eignet sich am besten zur regelmäßigen Übertragung von Dateien zwischen vielen Azure-Diensten oder lokalen Diensten (oder zwischen einer Kombination aus beidem). Mit Data Factory können Sie datengesteuerte Workflows (sogenannte Pipelines) erstellen und planen, die Daten aus unterschiedlichen Datenspeichern erfassen. Data Factory kann die Daten mithilfe von Computediensten wie Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics und Azure Machine Learning verarbeiten und transformieren. Sie können datengesteuerte Workflows zur Orchestrierung und Automatisierung der Verschiebung und Transformation von Daten erstellen.
Pipelines und Aktivitäten in Data Factory und Azure Synapse Analytics dienen zum Erstellen lückenloser datengesteuerter Workflows für Ihre Szenarien zum Verschieben und Verarbeiten von Daten. Darüber hinaus dient die Integration Runtime von Azure Data Factory zum Bereitstellen von Datenintegrationsfunktionen für verschiedene Netzwerkumgebungen.
Azure Data Box Gateway dient zum Übertragen von Daten in und aus Azure. Hierbei handelt es sich allerdings nicht um eine Festplatte, sondern um eine virtuelle Appliance. Virtuelle Computer in Ihrem lokalen Netzwerk schreiben Daten über die Protokolle Network File System (NFS) und SMB in Data Box Gateway. Das Gerät überträgt dann Ihre Daten in Azure.
Wichtige Auswahlkriterien
Die folgenden Fragen unterstützen Sie bei der Ermittlung eines geeigneten Systems für Ihre Datenübertragungsszenarien:
Müssen Sie sehr große Datenmengen übertragen, was über eine Internetverbindung zu lange dauern würde oder unzuverlässig bzw. zu teuer wäre? Falls ja, empfiehlt sich die physische Übertragung.
Bevorzugen Sie skriptgesteuerte (und somit wiederverwendbare) Datenübertragungsaufgaben? Falls ja, entscheiden Sie sich für eine der Befehlszeilenoptionen oder für Data Factory.
Müssen Sie eine große Datenmenge über eine Netzwerkverbindung übertragen? Falls ja, sollten Sie eine für Big Data optimierte Option wählen.
Müssen Sie Daten in eine relationale Datenbank oder aus einer relationalen Datenbank übertragen? Falls ja, entscheiden Sie sich für eine Option, die mindestens eine relationale Datenbank unterstützt. Einige dieser Optionen erfordern auch einen Hadoop-Cluster.
Benötigen Ihre Daten eine automatisierte Pipeline oder Workflow-Orchestrierung? Falls ja, empfiehlt sich die Verwendung von Data Factory.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:
Physische Übertragung
Funktion | Import/Export-Dienst | Data Box |
---|---|---|
Formfaktor | Interne SATA-HDDs oder -SDDs | Einzelne sichere und manipulationsgeschützte Hardwareappliance |
Von Microsoft verwaltete Versandlogistik | Nein | Ja |
Integration in Partnerprodukte | Nein | Ja |
Angepasste Appliance | Nein | Ja |
Befehlszeilentools
Hadoop/HDInsight:
Funktion | DistCp | Sqoop | Hadoop-Befehlszeilenschnittstelle |
---|---|---|---|
Für Big Data optimiert | Ja | Ja | Ja |
Kopieren in relationale Datenbank | Nein | Ja | Nein |
Kopieren aus relationaler Datenbank | Nein | Ja | Nein |
Kopieren in Blob Storage | Ja | Ja | Ja |
Kopieren aus Blob Storage | Ja | Ja | Nein |
Kopieren in Data Lake Storage | Ja | Ja | Ja |
Kopieren aus Data Lake Storage | Ja | Ja | Nein |
Sonstige:
Funktion | Die Azure-CLI | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
Kompatible Plattformen | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Azure Synapse Analytics |
Für Big Data optimiert | Nein | Ja | Nein | Ja1 | Ja2 |
Kopieren in relationale Datenbank | Nein | Nr. | Nr. | Nein | Ja |
Kopieren aus relationaler Datenbank | Nein | Nr. | Nr. | Nein | Ja |
Kopieren in Blob Storage | Ja | Ja | Ja | Keine | Ja |
Kopieren aus Blob Storage | Ja | Ja | Ja | Ja | Ja |
Kopieren in Data Lake Storage | Nein | Ja | Ja | Ja | Ja |
Kopieren aus Data Lake Storage | Nein | Nein | Ja | Ja | Ja |
[1] AdlCopy ist bei Verwendung mit einem Data Lake Analytics-Konto für die Übertragung von Big Data optimiert.
[2] Für PolyBase kann die Leistung verbessert werden, indem die Berechnung mithilfe von Push an Hadoop übertragen und durch die Verwendung von PolyBase-Erweiterungsgruppen die parallele Datenübertragung zwischen SQL Server-Instanzen und Hadoop-Knoten ermöglicht wird.
Grafische Oberflächen, Datensynchronisierung und Datenpipelines
Funktion | Azure Storage-Explorer | Azure-Portal* | Data Factory | Data Box Gateway |
---|---|---|---|---|
Für Big Data optimiert | Nein | Nein | Ja | Ja |
Kopieren in relationale Datenbank | Nein | Nein | Ja | Nein |
Kopieren aus relationaler Datenbank | Nein | Nein | Ja | Nein |
Kopieren in Blob Storage | Ja | Keine | Ja | Ja |
Kopieren aus Blob Storage | Ja | Keine | Ja | Nein |
Kopieren in Data Lake Storage | Nein | Nein | Ja | Nein |
Kopieren aus Data Lake Storage | Nein | Nein | Ja | Nein |
Hochladen in Blob Storage | Ja | Ja | Ja | Ja |
Hochladen in Data Lake Storage | Ja | Ja | Ja | Ja |
Orchestrieren von Datenübertragungen | Nein | Nein | Ja | Nein |
Benutzerdefinierte Datentransformationen | Nein | Nein | Ja | Nein |
Preismodell | Kostenlos | Kostenlos | Nutzungsbasierte Bezahlung | Zahlen pro Einheit |
* Azure-Portal meint in diesem Fall die webbasierten Erkundungstools für Blob Storage und Data Lake Storage.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Zoiner Tejada | CEO und Architekt
Nächste Schritte
- Was ist der Azure Import/Export-Dienst?
- Was ist Azure Data Box?
- Was ist die Azure CLI?
- Erste Schritte mit AzCopy
- Erste Schritte mit dem Storage-Explorer
- Was ist Azure Data Factory?
- Was ist Azure Data Box Gateway?