Sdílet prostřednictvím


Nastavení testovacího prostředí pro analýzu velkých objemů dat ve službě Azure Lab Services s využitím nasazení Dockeru na platformě HortonWorks Data Platform

Důležité

Služba Azure Lab Services bude vyřazena 28. června 2027. Další informace najdete v průvodci vyřazením.

Poznámka:

Tento článek odkazuje na funkce dostupné v plánech testovacího prostředí, které nahradily účty testovacího prostředí.

V tomto článku se dozvíte, jak nastavit testovací prostředí pro výuku třídy analýzy velkých objemů dat. Třída analýzy velkých objemů dat učí uživatele, jak zpracovávat velké objemy dat. Naučí se také používat algoritmy strojového a statistického učení k odvození přehledů dat. Klíčovým cílem je naučit se používat nástroje pro analýzu dat, jako je opensourcový softwarový balíček Apache Hadoop. Softwarový balíček poskytuje nástroje pro ukládání, správu a zpracování velkých objemů dat.

V tomto cvičení pracují uživatelé testovacího prostředí s oblíbenou komerční verzí Systému Hadoop, kterou poskytuje Cloudera s názvem Hortonworks Data Platform (HDP). Konkrétně uživatelé testovacího prostředí používají HDP Sandbox 3.0.1 , který je zjednodušená a snadno použitelná verze platformy. HDP Sandbox 3.0.1 je také zdarma a je určen pro učení a experimentování. I když tato třída může používat virtuální počítače s Windows nebo Linuxem s nasazeným sandboxem HDP. V tomto článku se dozvíte, jak používat Windows.

Dalším zajímavým aspektem je nasazení sandboxu HDP na virtuální počítače testovacího prostředí pomocí kontejnerů Dockeru . Každý kontejner Dockeru poskytuje své vlastní izolované prostředí pro softwarové aplikace, které se můžou spouštět uvnitř. Kontejnery Dockeru se podobají vnořeným virtuálním počítačům a dají se použít k snadnému nasazování a spouštění široké škály softwarových aplikací založených na imagích kontejnerů poskytovaných v Docker Hubu. Skript nasazení Cloudera pro sandbox HDP automaticky načítá image Dockeru HDP Sandbox 3.0.1 z Docker Hubu a spouští dva kontejnery Dockeru:

  • sandbox-hdp
  • sandbox-proxy

Požadavky

K nastavení tohoto testovacího prostředí potřebujete přístup k předplatnému Azure. Proberte správce vaší organizace a zjistěte, jestli máte přístup k existujícímu předplatnému Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Konfigurace testovacího prostředí

Nastavení plánu testovacího prostředí

Jakmile budete mít předplatné Azure, můžete vytvořit plán testovacího prostředí ve službě Azure Lab Services. Další informace o vytvoření nového plánu testovacího prostředí najdete v tématu Rychlý start: Nastavení prostředků pro vytváření testovacích prostředí. Můžete také použít existující plán testovacího prostředí.

Toto cvičení používá image Azure Marketplace s Windows 10 Pro jako základní image virtuálního počítače. Nejdřív musíte tuto image povolit v plánu testovacího prostředí. Tvůrci testovacího prostředí pak vyberou image jako základní image pro své testovací prostředí.

Pokud chcete povolit tyto image z Azure Marketplace dostupné tvůrcům testovacího prostředí, postupujte podle těchto kroků. Vyberte jednu z imagí z Azure Marketplace pro Windows 10 .

Nastavení testovacího prostředí

Vytvořte testovací prostředí pro plán testovacího prostředí. Pokyny k vytvoření testovacího prostředí najdete v kurzu : Nastavení testovacího prostředí. Při vytváření testovacího prostředí použijte následující nastavení.

Nastavení testovacího prostředí Hodnota/pokyny
Velikost virtuálního počítače Střední (vnořená virtualizace) Tato velikost virtuálního počítače je nejvhodnější pro relační databáze, ukládání do mezipaměti a analýzu v paměti. Velikost také podporuje vnořenou virtualizaci.
Image virtuálního počítače Windows 10 Pro

Poznámka:

Použijte velikost virtuálního počítače střední (vnořená virtualizace), protože sandbox HDP pomocí Dockeru vyžaduje Windows Hyper-V s vnořenou virtualizací a alespoň 10 GB paměti RAM.

Konfigurace počítače šablony

Nastavení počítače šablony:

  1. Instalace Dockeru
  2. Nasazení sandboxu HDP
  3. Automatické spuštění kontejnerů Dockeru pomocí Plánovače úloh PowerShellu a Windows

Instalace Dockeru

Kroky v této části jsou založené na pokynech Cloudera pro nasazení s kontejnery Dockeru.

Pokud chcete používat kontejnery Dockeru, musíte nejprve nainstalovat Docker Desktop na virtuální počítač šablony:

  1. Podle pokynů v části Požadavky nainstalujte Docker pro Windows.

    Důležité

    Ujistěte se, že možnost Použít kontejnery Windows místo konfigurace kontejnerů Linuxu není zaškrtnutá.

  2. Ujistěte se, že jsou zapnuté kontejnery Windows a funkce Hyper-V.

    Zapněte nebo vypněte funkce Windows.

  3. Podle kroků v části Paměť pro Windows nakonfigurujte konfiguraci paměti Dockeru.

    Upozorňující

    Pokud při instalaci Dockeru neúmyslně zkontrolujete možnost Použít kontejnery Windows místo kontejnerů Linuxu, nezobrazí se nastavení konfigurace paměti. Pokud chcete tento problém vyřešit, můžete přepnout na používání linuxových kontejnerů kliknutím na ikonu Dockeru v hlavním panelu Systému Windows. Když se otevře nabídka Docker Desktop, vyberte Přepnout na kontejnery Linuxu.

Nasazení sandboxu HDP

Dále nasaďte sandbox HDP a pak pomocí prohlížeče získejte přístup k sandboxu HDP.

  1. Ujistěte se, že jste nainstalovali Git Bash , jak je uvedeno v části Požadavky průvodce. Doporučujeme provést další kroky.

  2. Pomocí průvodce nasazením a instalací Cloudera pro Docker proveďte kroky v následujících částech:

    • Nasazení sandboxu HDP
    • Ověření sandboxu HDP

    Upozorňující

    Když si stáhnete nejnovější .zip soubor pro HDP, ujistěte se, že soubor .zip neuložíte do cesty k adresáři, který obsahuje prázdné znaky.

    Poznámka:

    Pokud během nasazení dojde k výjimce, že jednotka nebyla sdílena, musíte jednotku C sdílet s Dockerem, aby kontejnery HDP s Linuxem mohly přistupovat k místním souborům Windows. Pokud chcete tento problém vyřešit, kliknutím na ikonu Dockeru na hlavním panelu systému Windows otevřete nabídku Docker Desktop a vyberte Nastavení. Když se otevře dialogové okno Nastavení Dockeru, vyberte Sdílení souborů prostředků > a zkontrolujte jednotku C. Potom můžete zopakovat kroky pro nasazení sandboxu HDP.

  3. Když jsou kontejnery Dockeru pro sandbox HDP nasazené a spuštěné, můžete k prostředí přistupovat spuštěním prohlížeče. Postupujte podle pokynů Cloudera k otevření úvodní stránky sandboxu a spuštění řídicího panelu HDP.

    Poznámka:

    Tyto pokyny předpokládají, že jste nejprve namapovali místní IP adresu prostředí sandboxu na sandbox-hdp.hortonworks.com v souboru hostitele na virtuálním počítači šablony. Pokud toto mapování neuděláte, můžete přejít na úvodní stránku sandboxu tak, že přejdete na http://localhost:8080stránku .

Automatické spuštění kontejnerů Dockeru při přihlášení uživatelů testovacího prostředí

Pokud chcete uživatelům testovacího prostředí poskytnout snadno použitelné prostředí, vytvořte skript PowerShellu, který automaticky:

  1. Spustí kontejnery Dockeru v sandboxu HDP, když se uživatel testovacího prostředí spustí a připojí se ke svému testovacímu virtuálnímu počítači.
  2. Spustí prohlížeč a přejde na úvodní stránku sandboxu.

Pomocí Plánovače úloh Systému Windows můžete tento skript automaticky spustit, když se uživatel testovacího prostředí přihlásí ke svému virtuálnímu počítači. Pokud chcete nastavit plánovač úloh, postupujte takto: skriptování analýzy velkých objemů dat.

Závěr

Tento článek vás provede kroky potřebnými k vytvoření testovacího prostředí pro třídu analýzy velkých objemů dat. Třída analýzy velkých objemů dat používá platformu Hortonworks Data Platform nasazenou s Dockerem. Nastavení pro tento typ třídy se může použít pro podobné třídy analýzy dat. Toto nastavení může být také použitelné pro jiné typy tříd, které používají Docker pro nasazení.

Další kroky

Image šablony je teď možné publikovat do testovacího prostředí. Další informace najdete v tématu Publikování virtuálního počítače šablony.

Při nastavování testovacího prostředí si projděte následující články: