Rychlý start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí webu Azure Portal
V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster Apache Spark ve službě Azure HDInsight. Pak vytvoříte poznámkový blok Jupyter a použijete ho ke spouštění dotazů Spark SQL na tabulky Apache Hive. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Architektura Apache Spark pro HDInsight umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Jupyter Notebook umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.
Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů ve službě HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytváření clusterů na portálu.
Pokud používáte více clusterů společně, můžete chtít vytvořit virtuální síť. Pokud používáte cluster Spark, můžete také chtít použít Připojení or skladu Hive. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s Připojení orem Hive Warehouse.
Důležité
Clustery HDInsight se fakturují za minutu bez ohledu na to, jestli je používáte, nebo ne. Až přestanete cluster používat, nezapomeňte ho odstranit. Další informace najdete v části Vyčištění prostředků tohoto článku.
Požadavky
Účet Azure s aktivním předplatným. Vytvoření účtu zdarma
Vytvoření clusteru Apache Spark ve službě HDInsight
Pomocí webu Azure Portal vytvoříte cluster HDInsight, který jako úložiště clusteru používá objekty blob služby Azure Storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu Rychlý start: Nastavení clusterů ve službě HDInsight.
Přihlaste se k portálu Azure.
V horní nabídce vyberte + Vytvořit prostředek.
Výběrem možnosti Analytics>Azure HDInsight přejděte na stránku Vytvořit cluster HDInsight.
Na kartě Základy zadejte následující informace:
Vlastnost Popis Předplatné V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster. Skupina prostředků V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte možnost Vytvořit novou. Název clusteru Zadejte globálně jedinečný název. Oblast V rozevíracím seznamu vyberte oblast, ve které je cluster vytvořen. Availability zone Volitelné – zadejte zónu dostupnosti, ve které se má cluster nasadit. Typ clusteru Výběrem typu clusteru otevřete seznam. V seznamu vyberte Spark. Verze clusteru Po výběru typu clusteru se toto pole automaticky naplní výchozí verzí. Uživatelské jméno přihlášení clusteru Zadejte uživatelské jméno přihlášení clusteru. Výchozí název je správce. Tento účet použijete k přihlášení k poznámkovému bloku Jupyter Později v rychlém startu. Heslo přihlášení clusteru Zadejte přihlašovací heslo clusteru. Uživatelské jméno Secure Shell (SSH) Zadejte uživatelské jméno SSH. V tomto rychlém startu se používá uživatelské jméno SSH sshuser. Ve výchozím nastavení má tento účet stejné heslo jako účet Uživatelské jméno přihlášení clusteru. Vyberte Další: Úložiště >> pokračujte na stránku Úložiště .
V části Úložiště zadejte tyto hodnoty:
Vlastnost Popis Typ primárního úložiště Použijte výchozí hodnotu Azure Storage. Metoda výběru Použijte výchozí hodnotu Vybrat ze seznamu. Účet primárního úložiště Použijte automaticky vyplněnou hodnotu. Kontejner Použijte automaticky vyplněnou hodnotu. Pokračujte výběrem možnosti Zkontrolovat a vytvořit .
V části Zkontrolovat a vytvořit vyberte Vytvořit. Vytvoření clusteru trvá přibližně 20 minut. Cluster se nejprve musí vytvořit, a až pak můžete pokračovat k další relaci.
Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být, že nemáte správná oprávnění k tomu. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.
Vytvoříte poznámkový blok Jupyter Notebooks.
Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.
Ve webovém prohlížeči přejděte do
https://CLUSTERNAME.azurehdinsight.net/jupyter
umístění , kdeCLUSTERNAME
je název vašeho clusteru. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.Vyberte Nový>PySpark a vytvořte poznámkový blok.
Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).
Spouštění příkazů Apache Spark SQL
Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.
Ověřte, že je jádro připravené. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek. Plný kruh označuje, že je jádro zaneprázdněno.
Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí. Počkejte, až bude jádro připravené.
Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte. Příkaz vypíše tabulky Hive v clusteru:
%%sql SHOW TABLES
Při použití poznámkového bloku Jupyter s clusterem HDInsight získáte přednastavení
sqlContext
, které můžete použít ke spouštění dotazů Hive pomocí Spark SQL.%%sql
říká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil přednastavený kontextsqlContext
. Dotaz načte prvních 10 řádků z tabulky Hive (hivesampletable), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight. Získání výsledků trvá přibližně 30 sekund. Výstup vypadá takto:is quickstart." border="true":::
Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.
Spuštěním dalšího dotazu zobrazíte data v tabulce
hivesampletable
.%%sql SELECT * FROM hivesampletable LIMIT 10
Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.
Insight" border="true":::
V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit. Ukončením poznámkového bloku se uvolní prostředky clusteru.
Vyčištění prostředků
HDInsight ukládá vaše data ve službě Azure Storage nebo Azure Data Lake Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.
Přepněte zpět na web Azure Portal a vyberte Odstranit.
sight cluster" border="true":::
Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků. Odstraněním skupiny prostředků odstraníte cluster HDInsight i výchozí účet úložiště.
Další kroky
V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark ve službě HDInsight a spustit základní dotaz Spark SQL. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight spouštět interaktivní dotazy na ukázková data.