比較與 Azure HDInsight 叢集搭配使用的儲存體選項
建立 HDInsight 叢集時,您可選擇幾項不同的 Azure 儲存體服務:
本文提供了這些儲存體類型和其獨特功能的概觀。
儲存體類型和功能
下表摘要說明不同 HDInsight 版本支援的 Azure 儲存體服務:
儲存體服務 | 帳戶類型 | 命名空間類型 | 支援的服務 | 支援的效能層級 | 支援的存取層 | HDInsight 版本 | 叢集類型 |
---|---|---|---|---|---|---|---|
Azure Data Lake Storage Gen2 | 一般用途 V2 | 階層式 (檔案系統) | Blob | 標準 | 經常性存取層、非經常性存取層、封存 | 全部 | Spark 2.1 和 2.2 以外的所有項目 |
Azure 儲存體 | 一般用途 V2 | Object | Blob | 標準 | 經常性存取層、非經常性存取層、封存 | 全部 | 全部 |
Azure 儲存體 | 一般用途 V1 | Object | Blob | 標準 | N/A | 全部 | 全部 |
Azure 儲存體 | Blob 儲存體** | Object | 區塊 Blob | 標準 | 經常性存取層、非經常性存取層、封存 | 全部 | 全部 |
Azure Data Lake Storage Gen1 | N/A | 階層式 (檔案系統) | N/A | N/A | N/A | 全部 | HBase 以外的所有項目 |
Azure 儲存體 | 區塊 Blob | Object | 區塊 Blob | Premium | N/A | 全部 | 僅限加速寫入的 HBase |
Azure Data Lake Storage Gen2 | 區塊 Blob | 階層式 (檔案系統) | 區塊 Blob | Premium | N/A | 全部 | 僅限加速寫入的 HBase |
**針對 HDInsight 叢集,只有次要儲存體帳戶的類型可為 BlobStorage,且分頁 Blob 不是支援的儲存體選項。
如需 Azure 儲存體帳戶類型的詳細資訊,請參閱 Azure 儲存體帳戶概觀
如需 Azure 儲存體存取層的詳細資訊,請參閱 Azure Blob 儲存體︰進階 (預覽)、經常性儲存層、非經常性儲存層和封存儲存層
您可使用主要儲存體 (及選用次要儲存體) 的服務組合來建立叢集。 下表摘要說明 HDInsight 目前支援的叢集儲存體設定:
HDInsight 版本 | 主要儲存體 | 次要儲存體 | 支援 |
---|---|---|---|
4.0, 5.0, 5.1 | 一般用途 V1、一般用途 V2 | 一般用途 V1、一般用途 V2、BlobStorage (區塊 Blob) | Yes |
4.0, 5.0, 5.1 | 一般用途 V1、一般用途 V2 | Data Lake Storage Gen2 | No |
4.0, 5.0, 5.1 | Data Lake Storage Gen2 | Data Lake Storage Gen2 | Yes |
4.0, 5.0, 5.1 | Data Lake Storage Gen2* | 一般用途 V1、一般用途 V2、BlobStorage (區塊 Blob) | Yes |
4.0, 5.0, 5.1 | Data Lake Storage Gen2 | Data Lake Storage Gen1 | No |
4.0, 5.0, 5.1 | Data Lake Storage Gen1 | Data Lake Storage Gen1 | Yes |
4.0, 5.0, 5.1 | Data Lake Storage Gen1 | 一般用途 V1、一般用途 V2、BlobStorage (區塊 Blob) | Yes |
4.0, 5.0, 5.1 | Data Lake Storage Gen1 | Data Lake Storage Gen2 | No |
4.0, 5.0, 5.1 | 一般用途 V1、一般用途 V2 | Data Lake Storage Gen1 | No |
* = 可為一或多個 Data Lake Storage Gen2,只要皆設定使用相同的受控識別來存取叢集即可。
注意
Spark 2.1 或 2.2 叢集不支援 Data Lake Storage Gen2 主要儲存體。
資料複寫
Azure HDInsight 不會儲存客戶數據。 叢集的主要儲存方式是相關聯的儲存體帳戶。 您可將叢集連結至現有的儲存體帳戶,或在叢集建立流程期間建立新的儲存體帳戶。 如果已建立新的帳戶,則會建立為本地備援記憶體 (LRS) 帳戶,並滿足區域內數據落地需求,包括 Azure 全域基礎結構網站中指定的帳戶。
您可以確認 HDInsight 已正確設定為將資料儲存在單一區域中,方法是確保與 HDInsight 相關聯的記憶體帳戶是 LRS 或 Azure 全域基礎結構網站上提及的另一個記憶體選項。
注意
不支援使用 Azure Data Lake Storage Gen2 功能升級執行中叢集的主要或次要儲存體帳戶。 若要將現有 HDInsight 叢集的儲存類型變更為 Data Lake Storage Gen2,您必須重新建立叢集,然後選取已啟用階層式命名空間的儲存體帳戶。