Co je Apache Spark™ ve službě HDInsight v AKS? (Preview)

Článek
09/20/2024

Důležitý

Azure HDInsight v AKS byl vyřazen 31. ledna 2025. Další informace prostřednictvím tohoto oznámení.

Abyste se vyhnuli náhlému ukončení úloh, musíte migrovat úlohy do Microsoft Fabric nebo ekvivalentního produktu Azure.

Důležitý

Tato funkce je aktuálně ve verzi Preview. doplňkové podmínky použití pro verze Preview Microsoft Azure obsahují další právní podmínky, které se vztahují na funkce Azure, jež jsou v beta verzi, v náhledu nebo jsou doposud obecně nedostupné. Informace o tomto konkrétním preview najdete v tématu Azure HDInsight na AKS v preview. Pokud máte dotazy nebo návrhy funkcí, odešlete prosím žádost prostřednictvím AskHDInsight s podrobnostmi a pro další aktualizace nás sledujte na komunitě Azure HDInsight.

Apache Spark™ je architektura paralelního zpracování, která podporuje zpracování v paměti za účelem zvýšení výkonu analytických aplikací pro velké objemy dat.

Apache Spark™ poskytuje primitiva pro cluster computing v paměti. Úloha Sparku může načítat a ukládat data do paměti a dotazovat se na ni opakovaně. Výpočetní prostředí v paměti je rychlejší než aplikace založené na discích, jako je Hadoop, které sdílí data prostřednictvím distribuovaného systému souborů Hadoop (HDFS). Apache Spark umožňuje integraci s programovacími jazyky Scala a Python, abyste mohli manipulovat s distribuovanými datovými sadami, jako jsou místní kolekce. Není nutné strukturovat všechno jako operace mapování a redukce.

diagram zobrazující přehled Sparku ve službě HDInsight v AKS

Cluster Apache Spark se službou HDInsight v AKS

Azure HDInsight je spravovaná opensourcová analytická služba pro podniky.

Apache Spark™ ve službě Azure HDInsight v AKS je spravovaná služba Spark v Microsoft Azure. Díky Apache Sparku ve službě Azure HDInsight v AKS můžete ukládat a zpracovávat data v rámci Azure. Clustery Spark ve službě HDInsight jsou kompatibilní s Azure Data Lake Storage Gen2, což umožňuje aplikovat zpracování Sparku na stávající úložiště dat.

Architektura Apache Spark pro HDInsight v AKS umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Jupyter Notebook umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

Apache Spark v AKS ve službě HDInsight je složen z několika komponent, které fungují jako pody.

Kontrolery clusteru

Kontrolery clusteru zodpovídají za instalaci a správu příslušných služeb. V clusteru Spark se instalují a spravují různé kontrolery.

Komponenty služby Apache Spark

služba Zookeeper: Cluster Zookeeper se třemi uzly slouží jako distribuovaný koordinátor nebo úložiště s vysokou dostupností pro jiné služby.

služba Yarn: Hadoop Yarn cluster, úlohy Spark by byly v něm naplánovány jako aplikace Yarn.

Klientská rozhraní: Clustery Apache Spark ve službě HDInsight na AKS poskytují různá klientská rozhraní. Livy Server, Jupyter Notebook a Spark History Server poskytují služby Spark uživatelům HDInsight na AKS.

Odkaz

Názvy open source projektů Apache, Apache Spark, Spark a souvisejících open source projektů jsou obchodními známkami nadace Apache Software Foundation (ASF).

Sdílet prostřednictvím

Co je Apache Spark™ ve službě HDInsight v AKS? (Preview)

Cluster Apache Spark se službou HDInsight v AKS

Kontrolery clusteru

Komponenty služby Apache Spark

Odkaz

Další materiály