共用方式為


將資料傳輸到 Azure 或從 Azure 傳輸資料

視您的需求而定,有數個選項可用來將資料傳送至 Azure 和從 Azure 來回傳輸。

實體傳輸

使用實體硬體將資料傳輸到 Azure 是一個很好的選項:

  • 您的網路速度緩慢或不穩定。
  • 取得更多網路頻寬是成本高昂的。
  • 安全性或組織原則不允許在處理敏感資料時使用出站連線。

如果您的主要考慮是傳輸資料所需的時間,您可能會想要執行測試,以確認網路傳輸是否比實體傳輸慢。

有兩個主要選項可將資料實際傳輸至 Azure:

Azure 匯入/匯出服務

您可以透過 Azure 匯入/匯出服務,將內部 SATA 硬碟 (HDD) 或 SDD 運送到 Azure 資料中心,藉此將大量資料安全地傳輸到 Azure Blob 儲存體或 Azure 檔案。 您還可以使用此服務將資料從 Azure 儲存體傳輸到硬碟驅動器,並將驅動器運送給您以在內部載入。

Azure 資料箱

Azure 資料箱是 Microsoft 提供的設備,運作方式與匯入/匯出服務非常類似。 使用資料箱時,Microsoft 會隨附專屬、安全且防竄改的傳輸設備,並處理端對端物流,您可以透過入口網站進行追蹤。 資料箱服務的其中一個優點是易於使用。 您不需要購買數個硬碟、準備硬碟,並將檔案傳輸至每個硬碟。 許多領先業界的 Azure 合作夥伴都支援資料箱,讓您更輕鬆地從其產品順暢地使用離線傳輸至雲端。

命令列工具和 API

當您要編寫文稿和程式設計資料傳輸時,請考慮這些選項:

  • Azure CLI 是跨平台工具,可讓您管理 Azure 服務並將資料上傳至儲存體。

  • AzCopy。 從 WindowsLinux 命令列使用 AzCopy,以最佳效能輕鬆地將資料複製到 Blob 儲存體、Azure 檔案儲存體和 Azure 表格儲存體,或從這些儲存體複製資料。 AzCopy 支援並行和平行處理原則,並且能夠繼續中斷的複製作業。 您也可以使用 AzCopy 將資料從 AWS 複製到 Azure。 Microsoft Azure 儲存體資料移動程式庫是支援 AzCopy 的核心架構,適用於透過程序設計方式存取資料。 此程式庫會以 .NET Core 程式庫的形式提供。

  • 使用 PowerShell 時,Start-AzureStorageBlobCopy PowerShell cmdlet 是適合慣用 PowerShell 的 Windows 系統管理員的選項。

  • AdlCopy 可讓您將資料從 Blob 儲存體複製到 Azure Data Lake Storage。 此功能還可用於在兩個 Data Lake Storage 帳戶之間複製資料。 不過,此功能無法用來將資料從 Data Lake Storage 複製到 Blob 儲存體。

  • Distcp 可用來將資料複製到 HDInsight 叢集儲存體,或從 HDInsight 叢集儲存體 (WASB) 複製到 Data Lake Storage 帳戶。

  • Sqoop 是 Apache 專案,也是 Hadoop 生態系統的一部分。 此專案預先安裝在所有 HDInsight 叢集上。 此專案允許 HDInsight 叢集與關聯式資料庫之間的資料傳輸,例如 SQL、Oracle、MySQL 等等。 Sqoop 是相關工具的集合,包括匯入和匯出工具。 Sqoop 可搭配 HDInsight 叢集使用 Blob 儲存體或 Data Lake Storage 鏈接儲存體。

  • PolyBase 是一種技術,可透過 T-SQL 語言存取資料庫外部的資料。 在 SQL Server 2016 中,此技術可讓您對 Hadoop 中的外部資料執行查詢,或從 Blob 儲存體匯入或匯出資料。 您可以在 Azure Synapse Analytics 中,從 Azure Blob 儲存體和 Azure Data Lake Storage 匯入或匯出資料。 目前,PolyBase 是將資料匯入 Azure Synapse Analytics 最快的方法。

  • 當您擁有位於 HDInsight 叢集前端節點上的資料時,請使用 Hadoop 命令列。 您可以使用 hadoop -copyFromLocal 命令,將資料複製到叢集的附加儲存體,例如 Blob 儲存體或 Data Lake Storage。 要使用 Hadoop 命令,您必須首先連接到前端節點。 連線之後,您可以將檔案上傳至儲存體。

圖形化介面

如果您只傳輸一些檔案或資料物件,且不需要將流程自動化,請考慮下列選項。

  • Azure 儲存體總管是跨平台工具,可讓您管理 Azure 儲存體帳戶的內容。 此工具能讓您上傳、下載及管理 Blob、檔案、佇列、表格與 Azure Cosmos DB 實體。 將其用於 Blob 儲存體來管理 Blob 和資料夾,以及在您的本機檔案系統與 Blob 儲存體之間,或在儲存體帳戶彼此之間上傳和下載 Blob。

  • Azure 入口網站。 Blob 儲存體和 Data Lake Storage 都提供 Web 型介面,用於探索檔案和上傳新檔案。 如果您不要安裝工具或發出命令來快速瀏覽檔案,或想上傳少數幾個新檔案,就很適合使用這個選項。

資料同步和管線

  • Azure Data Factory 是最適合在許多 Azure 服務、內部部署系統或兩者的組合之間定期傳輸檔案的受控服務。 使用 Data Factory,可以建立並排程稱為管線的資料驅動工作流程,用來從不同的資料存放區內嵌資料。 Data Factory 能使用計算服務 (例如 Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics 和 Azure Machine Learning) 來處理及轉換資料。 您可以建立資料驅動的工作流程,以便協調及自動進行資料移動和資料轉換。

  • Data Factory 和 Azure Synapse Analytics 中的管線和活動可用於為資料移動和資料處理案例構建端對端資料驅動工作流程。 此外,Azure Data Factory 整合執行階段可用於提供跨不同網路環境的資料整合功能。

  • Azure 資料箱閘道能與 Azure 來回轉送資料,但這是虛擬設備而不是硬碟。 位於內部部署網路中的虛擬機器會使用網路檔案系統 (NFS) 和 SMB 通訊協定將資料寫入資料箱閘道。 裝置接著會將您的資料傳輸至 Azure。

索引鍵選取準則

針對資料傳輸案例,請回答下列問題,為您的需求選擇適當的系統:

  • 您需要傳輸大量資料,在因特網連線上這麼做需要太長的時間、不可靠或太昂貴嗎? 如果是,請考慮使用實體傳輸。

  • 您偏好編寫資料傳輸工作的指令碼,使其可重複使用? 如果是,請選取其中一個命令列選項或 Data Factory。

  • 您需要透過網路連線傳輸大量資料嗎? 如果是,請選取針對巨量資料最佳化的選項。

  • 您需要將資料傳送至關聯式資料庫或從關聯式資料庫傳輸資料嗎? 如果是,請選擇支援一或多個關聯式資料庫的選項。 其中一些選項也需要 Hadoop 叢集。

  • 您的數據是否需要自動化管線或工作流程協調流程? 如果是,請考慮使用 Data Factory。

功能對照表

下表摘要列出功能的主要差異。

實體傳輸

功能 匯入/匯出服務 資料箱
板型規格 內部 SATA HDD 或 SSD 安全、防竄改、單一硬體設備
Microsoft 管理航運物流 No Yes
與合作夥伴產品整合 No Yes
自訂設備 No Yes

命令列工具

Hadoop/HDInsight:

功能 DistCp Sqoop Hadoop CLI
針對巨量資料最佳化 Yes .是 Yes
複製到關聯式資料庫 No .是 No
從關聯式資料庫複製 No .是 No
複製到 Blob 儲存體 Yes .是 Yes
從 Blob 儲存體複製 Yes No
複製到 Data Lake Storage Yes .是 Yes
從 Data Lake Storage 複製 Yes No

其他

功能 Azure CLI AzCopy PowerShell AdlCopy PolyBase
相容的平台 Linux、OS X、Windows Linux、Windows Windows Linux、OS X、Windows SQL Server、Azure Synapse Analytics
針對巨量資料最佳化 No .是 No 1 2
複製到關聯式資料庫 No Yes
從關聯式資料庫複製 No Yes
複製到 Blob 儲存體 Yes .是 Yes
從 Blob 儲存體複製 Yes .是 .是 .是 Yes
複製到 Data Lake Storage No .是 .是 .是 Yes
從 Data Lake Storage 複製 No .是 .是 Yes

[1] AdlCopy 已針對搭配 Data Lake Analytics 帳戶使用時傳輸巨量資料最佳化。

[2] 藉由將計算推送至 Hadoop 並使用 PolyBase 向外延展群組來啟用 SQL Server 執行個體與 Hadoop 節點之間的平行資料傳輸,即可提高 PolyBase 效能

圖形化介面、資料同步和資料管線

功能 Azure 儲存體總管 Azure 入口網站* Data Factory 資料箱閘道
針對巨量資料最佳化 No .是 Yes
複製到關聯式資料庫 No .是 No
從關聯式資料庫複製 No .是 No
複製到 Blob 儲存體 .是 Yes
從 Blob 儲存體複製 .是 No
複製到 Data Lake Storage No .是 No
從 Data Lake Storage 複製 No .是 No
上傳至 Blob 儲存體 Yes .是 .是 Yes
上傳至 Data Lake Storage Yes .是 .是 Yes
協調資料傳輸 No .是 No
自訂資料轉換 No .是 No
計價模式 免費 免費 依使用量付費 依單位付費

在此案例中,Azure 入口網站代表 Blob 儲存體和 Data Lake Storage 的 Web 型探索工具。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主要作者:

下一步