共用方式為


什麼是 AKS 上 HDInsight 中的 Apache Spark™? (預覽)

注意

AKS 上的 Azure HDInsight 將於 2025 年 1 月 31 日退場。 請於 2025 年 1 月 31 日之前,將工作負載移轉至 Microsoft Fabric 或對等的 Azure 產品,以免工作負載突然終止。 訂用帳戶中剩餘的叢集將會停止,並會從主機移除。

在淘汰日期之前,只有基本支援可用。

重要

此功能目前為預覽功能。 Microsoft Azure 預覽版增補使用規定包含適用於 Azure 功能 (搶鮮版 (Beta)、預覽版,或尚未正式發行的版本) 的更多法律條款。 若需此特定預覽版的相關資訊,請參閱 Azure HDInsight on AKS 預覽版資訊。 如有問題或功能建議,請在 AskHDInsight 上提交要求並附上詳細資料,並且在 Azure HDInsight 社群上追蹤我們以獲得更多更新資訊。

Apache Spark™ 是一個平行處理架構,可支援記憶體內部處理,以大幅提升巨量資料分析應用程式的效能。

Apache Spark™ 提供用於記憶體內部叢集運算的基本項目。 Spark 作業可將資料載入並快取到記憶體,以便重複查詢。 記憶體內部計算速度優於磁碟型應用程式,例如,會透過 Hadoop 分散式檔案系統 (HDFS) 共用資料的 Hadoop。 Apache Spark 能夠與 Scala 和 Python 程式設計語言整合,讓您操作分散式資料集 (例如本機集合)。 您不需要將一切建構成對應和縮減作業。

此圖顯示 HDInsight on AKS 中的 Spark 概觀。

使用 AKS 上 HDInsight 的 Apache Spark 叢集

Azure HDInsight 是供企業使用的受控、全方位的開放原始碼分析服務。

AKS 上 Azure HDInsight 中的 Apache Spark™ 是 Microsoft Azure 中的受控 Spark 服務。 透過 AKS 上 Azure HDInsight 中的 Apache Spark,您就可以完全在 Azure 內儲存和處理資料。 HDInsight 中的 Spark 叢集與 Azure Data Lake Storage Gen2 相容,可讓您在現有的資料存放區上套用 Spark 處理。

AKS 上 HDInsight 的 Apache Spark 架構能夠運用記憶體內部處理,使得資料分析及叢集運算更為快速。 Jupyter Notebook 可讓您與資料互動、將程式碼與 Markdown 文字相結合,以及執行簡單的視覺效果。

AKS 上 HDInsight 的 Apache Spark 由多個元件組成作為 Pod。

叢集控制器

叢集控制器負責安裝和管理個別服務。 在 Spark 叢集中安裝及管理各種控制器。

Apache Spark 服務元件

Zookeeper 服務:三個節點 Zookeeper 叢集,可作為其他服務的分散式協調器或高可用性儲存體。

Yarn 服務:Hadoop Yarn 叢集,會在叢集中將 Spark 作業排程為 Yarn 應用程式。

用戶端介面:AKS 上 HDInsight 中的 Apache Spark 叢集,提供各種用戶端介面。 Livy Server、Jupyter Notebook、Spark 歷程記錄伺服器,會為 AKS 上的 HDInsight 使用者提供 Spark 服務。

參考