在 Azure Lab Services 中使用 HortonWorks Data Platform 的 Docker 部署,來設定巨量資料分析的實驗室
重要
Azure Lab Services 將於 2027 年 6 月 28 日淘汰。 如需詳細資訊,請參閱淘汰指南。
注意
本文參考實驗室方案中可用的功能,這將取代實驗室帳戶。
本文說明了如何設定實驗室,以便教導巨量資料分析課程。 巨量資料分析課程會教導使用者如何處理大量資料。 同時也會教導他們如何套用機器學習和統計學習演算法,深入解析資料。 主要目標是瞭解如何使用資料分析工具,例如 Apache Hadoop 的開放原始碼軟體套件。 該軟體套件提供了用來儲存、管理及處理巨量資料的工具。
在此實驗室中,實驗室使用者將使用 Cloudera 所提供的熱門商業版 Hadoop,稱為 Hortonworks Data Platform (HDP)。 具體而言,實驗室使用者會使用 HDP 沙箱 3.0.1,這是簡化過且容易在該平台上使用的版本。 HDP 沙箱 3.0.1 也是免費的,而且適用於學習和實驗。 雖然在此課程中,Windows 或 Linux 虛擬機器 (VM) 都可以用來部署 HDP 沙箱。 本文說明如何使用 Windows。
另一個有趣的層面是,您將使用 Docker 容器在實驗室虛擬機器上部署 HDP 沙箱。 每個 Docker 容器都會提供自己的獨立環境,讓軟體應用程式在容器內部執行。 在概念上,Docker 容器就像巢狀 VM,可根據 Docker Hub 上提供的容器映像,輕鬆地部署和執行各種不同的軟體應用程式。 Cloudera 的 HDP 沙箱部署指令碼會自動從 Docker Hub 提取 HDP Sandbox 3.0.1 Docker 映像,並執行兩個 Docker 容器:
- sandbox-hdp
- sandbox-proxy
必要條件
若要設定此實驗室,您需要 Azure 訂閱的存取權。 請與組織的系統管理員討論,以確認您是否可存取現有的 Azure 訂閱。 如尚未擁有 Azure 訂用帳戶,請在開始之前先建立免費帳戶。
實驗室組態
實驗室計劃設定
在擁有 Azure 訂用帳戶後,您就可以在 Azure 實驗室服務中建立實驗室計劃。 如需建立新實驗室方案的詳細資訊,請參閱快速入門:設定資源以建立實驗室。 您也可以使用現有的實驗室計劃。
此實驗室使用 Windows 10 專業版 Azure Marketplace 映像做為基礎 VM 映像。 您必須先在實驗室方案中啟用此映像。 這可讓實驗室建立者選取映像做為其實驗室的基礎映像。
請遵循下列步驟啟用可供實驗室建立者使用的 Azure Marketplace 映像。 選取其中一個 Windows 10 Azure Marketplace 映像。
實驗室設定
為您的實驗室方案建立實驗室。 如需如何建立實驗室的指示,請參閱教學課程:設定實驗室。 建立實驗室時,請使用下列設定。
實驗室設定 | 值/指示 |
---|---|
虛擬機器大小 | 中型 (巢狀虛擬化)。 這個 VM 大小最適合用於關聯式資料庫、記憶體內部快取及分析。 此大小也支援巢狀虛擬化。 |
虛擬機器映像 | Windows 10 Pro |
注意
使用中型 (巢狀虛擬化),虛擬機器大小,因為使用 Docker 部署 HDP 沙箱需要具有巢狀虛擬化和至少 10 GB RAM 的 Windows Hyper-V。
範本機器設定
若要設定範本電腦,需要:
- 安裝 Docker
- 部署 HDP 沙箱
- 使用 PowerShell 和 Windows 工作排程器自動啟動 Docker 容器
安裝 Docker
本節中的步驟是以 使用 Docker 容器部署的 Cloudera 指示為基礎。
若要使用 Docker 容器,您必須先在範本 VM 上安裝 Docker Desktop:
請遵循「必要條件」一節中的步驟,來安裝適用於 Windows 的 Docker。
重要
切勿勾選 [使用 Windows 容器而非 Linux 容器] 設定選項。
確保 Windows 容器和 Hyper-V 功能已開啟。
請遵循 Windows 的記憶體一節中的步驟,設定 Docker 的記憶體組態。
警告
如果您在安裝 Docker 時不小心勾選了 [使用 Windows 容器而非 Linux 容器] 選項,就不會看到記憶體組態設定。 若要修正此問題,您可以按一下 Windows 系統匣中的 Docker 圖示,切換成使用 Linux 容器;當 Docker Desktop 功能表開啟時,請選取 [切換到 Linux 容器]。
部署 HDP 沙箱
接著,部署 HDP 沙箱,然後使用瀏覽器存取 HDP 沙箱。
使用 Cloudera 的 Docker 部署和安裝指南,完成下列各節中的步驟:
- 部署 HDP 沙箱
- 驗證 HDP 沙箱
警告
當您下載 HDP 的最新 .zip 檔案時,「請勿」將 .zip 檔案儲存在包含空格的目錄路徑中。
注意
如果您在部署期間碰到例外狀況,指出尚未共用磁碟機,就必須與 Docker 共用 C 磁碟機,讓 HDP 的 Linux 容器可以存取本機 Windows 檔案。 若要修正此問題,請按一下 Windows 系統匣中的 Docker 圖示,以開啟 Docker Desktop 功能表,然後選取 [設定]。 當 [Docker 設定] 對話方塊開啟時,請選取 [資源與檔案共用],並檢查 C 磁碟機。 接著,您可以重複步驟以部署 HDP 沙箱。
部署和執行 HDP 沙箱的 Docker 容器後,只要啟動瀏覽器就可以存取環境。 請遵循 Cloudera 的指示來開啟沙箱歡迎頁面,並啟動 HDP 儀表板。
注意
這些指示是假設您已先將沙箱環境的本機 IP 位址,對應到範本 VM 上主機檔案中的 sandbox-hdp.hortonworks.com。 如果您不想執行此對應,可以流覽到
http://localhost:8080
來存取沙箱歡迎頁面。
實驗室使用者登入時自動啟動 Docker 容器
為了讓實驗室使用者容易使用,需要建立會自動執行下列動作的 PowerShell 指令碼:
- 實驗室使用者啟動開機並連線到自己的實驗室虛擬機器時,啟動 HDP 沙箱 Docker 容器。
- 啟動瀏覽器並瀏覽到沙箱歡迎頁面。
在實驗室使用者登入自己的 VM 時,使用 Windows 工作排程器自動執行這個指令碼。 若要設定工作排程器,請遵循下列步驟:巨量資料分析指令碼。
結論
本文已逐步引導您完成建立巨量資料分析課程實驗室所需的步驟。 巨量資料分析課程會使用以 Docker 部署的 Hortonworks Data Platform。 此課程類型的設定,或許也可用於類似的資料分析課程。 此設定可能也適用於使用 Docker 進行部署的其他課程類型。
下一步
範本映像現在可以發佈至實驗室。 如需詳細資訊,請參閱發佈範本 VM。
當您設定實驗室時,請參閱下列文章: