Rychlý start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí webu Azure Portal

Článek
11/25/2024

V tomto rychlém startu pomocí webu Azure Portal vytvoříte cluster Apache Spark ve službě Azure HDInsight. Pak vytvoříte poznámkový blok Jupyter a použijete ho ke spouštění dotazů Spark SQL na tabulky Apache Hive. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Architektura Apache Spark pro HDInsight umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Jupyter Notebook umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

Podrobné vysvětlení dostupných konfigurací najdete v tématu Nastavení clusterů ve službě HDInsight. Další informace o použití portálu k vytváření clusterů najdete v tématu Vytváření clusterů na portálu.

Pokud používáte více clusterů společně, můžete chtít vytvořit virtuální síť. Pokud používáte cluster Spark, můžete také chtít použít Připojení or skladu Hive. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s Připojení orem Hive Warehouse.

Důležité

Clustery HDInsight se fakturují za minutu bez ohledu na to, jestli je používáte, nebo ne. Až přestanete cluster používat, nezapomeňte ho odstranit. Další informace najdete v části Vyčištění prostředků tohoto článku.

Požadavky

Účet Azure s aktivním předplatným. Vytvoření účtu zdarma

Vytvoření clusteru Apache Spark ve službě HDInsight

Pomocí webu Azure Portal vytvoříte cluster HDInsight, který jako úložiště clusteru používá objekty blob služby Azure Storage. Další informace o použití Data Lake Storage Gen2 najdete v tématu Rychlý start: Nastavení clusterů ve službě HDInsight.

Přihlaste se k portálu Azure.
V horní nabídce vyberte + Vytvořit prostředek.
Výběrem možnosti Analytics>Azure HDInsight přejděte na stránku Vytvořit cluster HDInsight.

Na kartě Základy zadejte následující informace:

Vlastnost	Popis
Předplatné	V rozevíracím seznamu vyberte předplatné Azure, které se používá pro cluster.
Skupina prostředků	V rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte možnost Vytvořit novou.
Název clusteru	Zadejte globálně jedinečný název.
Oblast	V rozevíracím seznamu vyberte oblast, ve které je cluster vytvořen.
Availability zone	Volitelné – zadejte zónu dostupnosti, ve které se má cluster nasadit.
Typ clusteru	Výběrem typu clusteru otevřete seznam. V seznamu vyberte Spark.
Verze clusteru	Po výběru typu clusteru se toto pole automaticky naplní výchozí verzí.
Uživatelské jméno přihlášení clusteru	Zadejte uživatelské jméno přihlášení clusteru. Výchozí název je správce. Tento účet použijete k přihlášení k poznámkovému bloku Jupyter Později v rychlém startu.
Heslo přihlášení clusteru	Zadejte přihlašovací heslo clusteru.
Uživatelské jméno Secure Shell (SSH)	Zadejte uživatelské jméno SSH. V tomto rychlém startu se používá uživatelské jméno SSH sshuser. Ve výchozím nastavení má tento účet stejné heslo jako účet Uživatelské jméno přihlášení clusteru.

Screenshot shows Create HDInsight cluster with the Basics tab selected.

Vyberte Další: Úložiště >> pokračujte na stránku Úložiště .

V části Úložiště zadejte tyto hodnoty:

Vlastnost	Popis
Typ primárního úložiště	Použijte výchozí hodnotu Azure Storage.
Metoda výběru	Použijte výchozí hodnotu Vybrat ze seznamu.
Účet primárního úložiště	Použijte automaticky vyplněnou hodnotu.
Kontejner	Použijte automaticky vyplněnou hodnotu.

Screenshot shows Create HDInsight cluster with the Storage tab selected.

Pokračujte výběrem možnosti Zkontrolovat a vytvořit .

V části Zkontrolovat a vytvořit vyberte Vytvořit. Vytvoření clusteru trvá přibližně 20 minut. Cluster se nejprve musí vytvořit, a až pak můžete pokračovat k další relaci.

Pokud narazíte na problém s vytvářením clusterů HDInsight, může to být, že nemáte správná oprávnění k tomu. Další informace najdete v tématu popisujícím požadavky na řízení přístupu.

Vytvoříte poznámkový blok Jupyter Notebooks.

Jupyter Notebook je interaktivní prostředí poznámkového bloku, které podporuje různé programovací jazyky. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

Ve webovém prohlížeči přejděte do https://CLUSTERNAME.azurehdinsight.net/jupyterumístění , kde CLUSTERNAME je název vašeho clusteru. Po zobrazení výzvy zadejte přihlašovací údaje clusteru.
Vyberte Nový>PySpark a vytvořte poznámkový blok.

Nový poznámkový blok se vytvoří a otevře s názvem Bez názvu (Bez názvu.pynb).

Spouštění příkazů Apache Spark SQL

Jazyk SQL (Structured Query Language) je nejběžnějším a široce používaným jazykem pro dotazování a definování dat. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.

Ověřte, že je jádro připravené. Jádro bude připravené, až se vedle názvu jádra v poznámkovém bloku zobrazí prázdný kroužek. Plný kruh označuje, že je jádro zaneprázdněno.

Při prvním spuštění poznámkového bloku jádro provede některé úlohy na pozadí. Počkejte, až bude jádro připravené.
Do prázdné buňky vložte následující kód a stisknutím SHIFT + ENTER kód spusťte. Příkaz vypíše tabulky Hive v clusteru:
```
%%sql
SHOW TABLES
```
Při použití poznámkového bloku Jupyter s clusterem HDInsight získáte přednastavení sqlContext , které můžete použít ke spouštění dotazů Hive pomocí Spark SQL. %%sql říká poznámkovému bloku Jupyter, aby ke spuštění dotazu Hive použil přednastavený kontext sqlContext. Dotaz načte prvních 10 řádků z tabulky Hive (hivesampletable), která je ve výchozím nastavení k dispozici na všech clusterech HDInsight. Získání výsledků trvá přibližně 30 sekund. Výstup vypadá takto:

is quickstart." border="true":::

Při každém spuštění dotazu v Jupyter se v názvu okna webového prohlížeče zobrazí stav (Busy) (Zaneprázdněn) společně s názvem poznámkového bloku. Zobrazí se také plný kroužek vedle textu PySpark v pravém horním rohu.
Spuštěním dalšího dotazu zobrazíte data v tabulce hivesampletable.
```
%%sql
SELECT * FROM hivesampletable LIMIT 10
```
Obrazovka by se měla aktualizovat a zobrazit výstup dotazu.

Insight" border="true":::
V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit. Ukončením poznámkového bloku se uvolní prostředky clusteru.

Vyčištění prostředků

HDInsight ukládá vaše data ve službě Azure Storage nebo Azure Data Lake Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají. Pokud se chystáte hned začít pracovat na kurzu uvedeném v části Další kroky, měli byste cluster zachovat.

Přepněte zpět na web Azure Portal a vyberte Odstranit.

Azure portal delete an HDInsight cluster. sight cluster" border="true":::

Můžete také výběrem názvu skupiny prostředků otevřít stránku skupiny prostředků a pak vybrat Odstranit skupinu prostředků. Odstraněním skupiny prostředků odstraníte cluster HDInsight i výchozí účet úložiště.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark ve službě HDInsight a spustit základní dotaz Spark SQL. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight spouštět interaktivní dotazy na ukázková data.

Spouštění interaktivních dotazů v Apache Sparku

Sdílet prostřednictvím