建立 HDInsight 叢集
可用來建立 HDInsight 叢集的方法有很多種,從使用 Azure 入口網站進行的易用使用者介面,到可協助進行自動化部署的指令碼式設定。 下表顯示可用來設定 HDInsight 叢集的不同方法。
叢集建立方法 | 網頁瀏覽器 | 命令列 | REST API | SDK |
---|---|---|---|---|
Azure 入口網站 | ✔ | |||
Azure Data Factory | ✔ | ✔ | ✔ | ✔ |
Azure CLI | ✔ | |||
Azure PowerShell | ✔ | |||
cURL | ✔ | ✔ | ||
.NET SDK | ✔ | |||
Azure Resource Manager 範本 | ✔ |
所有的 HDInsight 設定都需要下列基本資訊,包括:
[基本] 索引標籤
專案詳細資料
訂用帳戶
定義要用來計費及管理 HDInsight 的 Azure 訂用帳戶。
資源群組名稱
資源群組是 Azure 技術及服務的邏輯群組,通常會與相同的應用程式或應用程式生命週期有關。 將服務組成相同的資源群組可減輕系統管理維護上的負擔。
叢集詳細資料
叢集名稱
HDInsight 叢集名稱具有下列限制:
- 允許的字元:a-z、0-9、A-Z
- 長度上限:59
- 保留名稱:apps
- 叢集命名範圍適用於所有 Azure,橫跨所有訂用帳戶。 因此,叢集名稱必須是全球唯一的。
- 前六個字元在 VNET 內必須是唯一的
位置
指定儲存叢集類型的位置。 如果沒有定義位置,則叢集會共置在和預設儲存體相同的位置。 該位置應該要盡可能接近您的使用者,以減少延遲。
叢集類型
定義佈建在您資源叢集上的技術堆疊。 根據您擁有的資料類型,以及您案例所需的處理種類來選取叢集類型。 下表顯示可用的叢集類型。
叢集類型 | 描述 |
---|---|
Apache Hadoop | 使用 HDFS 和簡單 MapReduce 程式設計模型的架構,用來處理和分析批次資料。 |
Apache Spark | 開放原始碼的平行處理架構,可支援記憶體內部處理,以大幅提升巨量資料分析應用程式的效能。 |
HBase | 建置於 Hadoop 上的 NoSQL 資料庫,可針對大量非結構化及半結構化資料 (可能是數十億個資料列乘以數百萬個資料行) 提供隨機存取功能和強大的一致性。 |
Apache Interactive Query | 更快速進行互動式 Hive 查詢的記憶體內部快取。 |
Apache Kafka | 用來建置串流資料管線和應用程式的開放原始碼平台。 Kafka 也提供訊息佇列功能,可讓您發佈和訂閱資料流。 |
版本
定義此叢集的 HDInsight 版本。 HDInsight 4.0 是最新的版本,並能將最新的架構佈建到叢集。
叢集認證
使用 HDInsight 叢集,您可以在建立叢集期間設定兩個使用者帳戶。
叢集登入和密碼
預設使用者名稱是 admin。該使用者會使用 Azure 入口網站上的基本組態。 有時會稱之為「叢集使用者」。
SSH 使用者名稱和密碼
用來透過 SSH 連線到叢集。
注意
企業安全性套件可讓您整合 HDInsight 與 Active Directory 及 Apache Ranger。 使用企業安全性套件可以建立多個使用者。
[儲存體] 索引標籤
HDInsight 叢集可以使用下列儲存體選項,如 [儲存體] 畫面中所示:
- Azure Data Lake Storage Gen2
- Azure Data Lake Storage Gen1
- Azure 儲存體一般用途 v2
- Azure 儲存體一般用途 v1
- Azure 儲存體區塊 Blob (僅支援作為次要儲存體)
[儲存體] 畫面可讓您定義主要儲存體帳戶和預設容器。 您也可以將其他 Azure 儲存體連結到叢集。 [中繼存放區] 設定可讓您定義外部 SQL 資料庫以在刪除叢集之後儲存 Hive 資料表,以及用來透過將中繼資料儲存在外部存放區中來改善 Oozie 的效能。
安全性和網路服務
對於 Hadoop、Spark、HBase、Kafka 互動式查詢叢集類型,您可以選擇啟用 [企業安全性套件]。 此套件能透過使用 Apache Ranger 並與 Microsoft Entra ID 整合,讓您可選擇更安全的叢集設定。
此外,建議您一律在 VNet 內部署 HDInsight 叢集,且您可以在此畫面中定義及設定虛擬網路。 如果您的解決方案需要會分散到多個 HDInsight 叢集類型的技術,Azure 虛擬網路可以連接必要的叢集類型。 此設定可讓叢集 (以及您對它們部署的任何程式碼) 直接彼此通訊。
設定和定價
此頁面可讓您設定叢集的大小和效能,並檢視估計的成本資訊。 在此畫面中,您可以定義將用於前端 (主要) 節點及背景工作角色節點的虛擬機器。