Azure との間でのデータの転送
Azure との間でデータを転送するオプションはいくつかあり、必要に応じて選択できます。
物理的転送
物理ハードウェアを使用して Azure にデータを転送する方法は、次の場合に適しています。
- ネットワークが低速、または信頼性が低い。
- ネットワーク帯域幅を追加するためにコストがかかる。
- 機密データを扱う場合、セキュリティまたは組織のポリシーで発信接続が許可されない。
主な懸案事項がデータの転送にかかる時間の場合、ネットワーク転送が物理的転送よりも遅いかどうかを確認するテストを実行できます。
物理的にデータを Azure に転送するには、主に 2 つのオプションがあります。
Azure Import/Export サービス
Azure Import/Export サービスを使用すると、内部 SATA ハード ディスク ドライブ (HDD) または SDD を Azure データセンターに送付することで、大量のデータを Azure Blob Storage または Azure Files に安全に転送できます。 また、このサービスを使用して、データを Azure Storage からハード ディスク ドライブに転送し、それらのドライブをオンプレミスの読み込みのために配送することもできます。
Azure Data Box
Azure Data Box は、Microsoft が提供するアプライアンスで、Import/Export サービスと同様に機能します。 Microsoft は、Data Box で独自のセキュリティで保護された改ざん防止機能を持つ転送アプライアンスを提供し、物流全体を管理します。ユーザーはこれをポータルで確認できます。 Data Box サービスの利点の 1 つは使いやすさです。 複数のハード ドライブを購入して準備し、それぞれにファイルを転送する必要はありません。 Data Box は、業界をリードする多数の Azure パートナーによりサポートされており、パートナー製品からクラウドへのオフライン転送をシームレスに利用できます。
コマンドライン ツールと API
スクリプト化とプログラムによるデータ転送を行う場合は、これらのオプションを検討してください。
Azure CLI は、Azure サービスを管理し、Storage にデータをアップロードすることができるクロスプラットフォーム ツールです。
AzCopy。 Windows または Linux のコマンドラインから AzCopy を使用すると、最適なパフォーマンスで Blob Storage、Azure File Storage、Azure Table Storage との間で簡単にデータをコピーできます。 AzCopy はコンカレンシーと並列処理をサポートし、中断された場合にコピー操作を再開することができます。 AzCopy を使用して、AWS から Azure にデータをコピーすることもできます。 プログラムによるアクセスの場合、Microsoft Azure Storage Data Movement Library は、AzCopy を強化するコア フレームワークです。 .NET Core ライブラリとして提供されています。
PowerShell の場合、AzureStorageBlobCopy PowerShell コマンドレットが、PowerShell に慣れている Windows 管理者向けのオプションです。
AdlCopy を使用すると、Blob Storage から Azure Data Lake Storage にデータをコピーできます。 これを使用して、2 つの Data Lake Store アカウント間でデータをコピーすることもできます。 ただし、Data Lake Storage から Blob Storage にデータをコピーするために使用することはできません。
Distcp は、HDInsight クラスター ストレージ (WASB) と Data Lake Storage アカウントの間でデータをコピーするために使用されます。
Sqoop は Apache プロジェクトであり、Hadoop エコシステムの一部です。 すべての HDInsight クラスターにプリインストールされています。 HDInsight クラスターと、SQL、Oracle、MySQL などのリレーショナル データベース間でデータを転送できます。 Sqoop は、インポートとエクスポートのツールを含む関連ツールのコレクションです。 Sqoop は、Blob Storage または Data Lake Storage に接続されているストレージを使用する HDInsight クラスターと連携します。
PolyBase は、T-SQL 言語を使用してデータベース外部のデータにアクセスするテクノロジです。 SQL Server 2016 では、Hadoop で外部データに対してクエリを実行し、Blob Storage との間でデータをインポートまたはエクスポートすることができます。 Azure Synapse Analytics では、Blob Storage と Data Lake Storage に対してデータをインポートまたはエクスポートできます。 Azure Synapse Analytics にデータをインポートする場合、現時点では PolyBase が最速の方法です。
HDInsight クラスター ヘッド ノードにデータが存在する場合は、Hadoop コマンド ラインを使用します。
hadoop -copyFromLocal
コマンドを使用して、Blob Storage や Data Lake Storage など、クラスターに接続されたストレージにそのデータをコピーできます。 Hadoop コマンドを使用するには、まずヘッド ノードに接続する必要があります。 接続後は、ファイルをストレージにアップロードできます。
グラフィカル インターフェイス
少数のファイルまたはデータ オブジェクトのみを転送し、プロセスを自動化する必要がない場合は、次のオプションを検討してください。
Azure Storage Explorer は、Azure Storage アカウントのコンテンツを管理できるクロスプラットフォーム ツールです。 BLOB、ファイル、キュー、テーブル、Azure Cosmos DB のエンティティをアップロード、ダウンロード、および管理できます。 Blob Storage と共に使用して BLOB とフォルダーを管理できるだけでなく、ローカル ファイル システムと Blob Storage 間、またはストレージ アカウント間で BLOB をアップロードおよびダウンロードすることができます。
Azure Portal Blob Storage と Data Lake Storage のいずれにも、ファイルの探索と新しいファイルのアップロードのための Web ベースのインターフェイスが用意されています。 ツールをインストールしたくない場合、またはファイルをすばやく探索するためや少数のファイルをアップロードするためにコマンドを発行したくない場合、このオプションが適しています。
データ同期とパイプライン
Azure Data Factory は、多数の Azure サービス、オンプレミスのシステム、またはその 2 つの組み合わせの間でファイルを定期的に転送する場合に最適なマネージド サービスです。 Data Factory を使用することで、さまざまなデータ ストアからデータを取り込むデータ ドリブン ワークフロー (パイプライン) を作成し、スケジューリングできます。 Data Factory は、Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure Machine Learning などのコンピューティング サービスを使ってデータを処理し、変換できます。 データ移動とデータ変換を調整し、自動化するためのデータ駆動型ワークフローを作成できます。
Data Factory のパイプラインおよびアクティビティ と Azure Synapse Analytics を使用して、データ移動とデータ処理のシナリオ用のエンド ツー エンドのデータ駆動型ワークフローを構築できます。 さらに、Azure Data Factory 統合ランタイム (IR) を使用して、異なるネットワーク環境全体にデータ統合機能を提供できます。
Azure Data Box Gateway は Azure との間でデータを転送しますが、これはハード ドライブではなく仮想アプライアンスです。 オンプレミス ネットワークに存在する仮想マシンは、ネットワーク ファイル システム (NFS) プロトコルと SMB プロトコルを使用して Data Box Gateway にデータを書き込みます。 その後、デバイスはデータを Azure に転送します。
主要な選択条件
データ転送のシナリオについて、次の質問に答えてニーズに適したシステムを選択してください。
大量のデータを転送する必要はありますか。それをインターネット接続上で行う場合、処理時間が長すぎる、信頼性が低い、コストが高すぎるという問題はありますか。 "はい" の場合、物理的転送を検討してください。
データ転送タスクをスクリプト化して再利用できるようにしたいですか。 該当する場合、コマンド ラインのオプションのいずれかまたは Data Factory を選択します。
大量のデータをネットワーク接続経由で転送する必要はありますか。 該当する場合、ビッグ データ向けに最適化されたオプションを選択します。
リレーショナル データベースとの間でデータを転送する必要はありますか。 "はい" の場合、1 つ以上のリレーショナル データベースをサポートするオプションを選択します。 これらのオプションの一部では Hadoop クラスターも必要です。
自動データ パイプラインまたはワークフロー オーケストレーションは必要ですか。 "はい" の場合、Data Factory を検討してください。
機能のマトリックス
次の表は、機能の主な相違点をまとめたものです。
物理的転送
機能 | Import/Export サービス | Data Box |
---|---|---|
フォーム ファクター | 内部 SATA HDD または SDD | セキュリティで保護された改ざん防止機能を持つ単一のハードウェア アプライアンス |
Microsoft が出荷の物流を管理 | いいえ | はい |
パートナー製品との統合 | いいえ | はい |
カスタム アプライアンス | いいえ | はい |
コマンドライン ツール
Hadoop/HDInsight:
機能 | DistCp | Sqoop | Hadoop CLI |
---|---|---|---|
ビッグ データに合わせて最適化 | はい | イエス | はい |
リレーショナル データベースへのコピー | いいえ | 有効 | いいえ |
リレーショナル データベースからのコピー | いいえ | 有効 | いいえ |
Blob Storage へのコピー | はい | イエス | はい |
Blob Storage からのコピー | はい | はい | いいえ |
Data Lake Storage へのコピー | はい | イエス | はい |
Data Lake Storage からのコピー | はい | はい | いいえ |
その他:
機能 | Azure CLI | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
互換性のあるプラットフォーム | Linux、OS X、Windows | Linux、Windows | Windows | Linux、OS X、Windows | SQL Server、Azure Synapse Analytics |
ビッグ データに合わせて最適化 | いいえ | 有効 | いいえ | はい 1 | はい 2 |
リレーショナル データベースへのコピー | いいえ | 番号 | 番号 | 番号 | はい |
リレーショナル データベースからのコピー | いいえ | 番号 | 番号 | 番号 | はい |
Blob Storage へのコピー | はい | イエス | はい | いいえ | はい |
Blob Storage からのコピー | はい | イエス | イエス | イエス | はい |
Data Lake Storage へのコピー | いいえ | イエス | イエス | イエス | はい |
Data Lake Storage からのコピー | いいえ | 番号 | イエス | イエス | はい |
[1] AdlCopy は、Data Lake Analytics アカウントで使用するときのビッグ データの転送に合わせて最適化されています。
[2] PolyBase のパフォーマンスを向上させるには、計算を Hadoop にプッシュし、PolyBase スケールアウト グループを使用して、SQL Server インスタンスと Hadoop ノード間の並列データ転送を有効にします。
グラフィカル インターフェイス、データ同期、データ パイプライン
機能 | Azure ストレージ エクスプローラー | Azure Portal * | Data Factory | Data Box Gateway |
---|---|---|---|---|
ビッグ データに合わせて最適化 | いいえ | 番号 | イエス | はい |
リレーショナル データベースへのコピー | いいえ | 番号 | 有効 | いいえ |
リレーショナル データベースからのコピー | いいえ | 番号 | 有効 | いいえ |
Blob Storage へのコピー | はい | いいえ | イエス | はい |
Blob Storage からのコピー | はい | いいえ | 有効 | いいえ |
Data Lake Storage へのコピー | いいえ | 番号 | 有効 | いいえ |
Data Lake Storage からのコピー | いいえ | 番号 | 有効 | いいえ |
Blob Storage へのアップロード | はい | イエス | イエス | はい |
Data Lake Storage へのアップロード | はい | イエス | イエス | はい |
データ転送の調整 | いいえ | 番号 | 有効 | いいえ |
カスタム データ変換 | いいえ | 番号 | 有効 | いいえ |
価格モデル | Free | Free | 使用した分を支払う | ユニットあたりの支払い |
この場合の Azure portal は、Blob Storage と Data Lake Storage 用の Web ベースの探索ツールを表します。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパル作成者:
- Zoiner Tejada | CEO 兼アーキテクト
次のステップ
- Azure Import/Export サービスとは
- Azure Data Box とは何ですか?
- Azure CLI とは
- AzCopy を使ってみる
- Storage Explorer の概要
- Azure Data Factory とは
- Azure Data Box Gateway とは