Pokyny pro Apache Spark

Článek
02/28/2025

Tento článek obsahuje různé pokyny pro používání Apache Sparku ve službě Azure HDInsight.

Návody spustit nebo odeslat úlohy Sparku?

Možnost	Dokumenty
Visual Studio Code	Použití nástrojů Spark &Hive pro Visual Studio Code
Poznámkové bloky Jupyter	Kurz: Načtení dat a spouštění dotazů v clusteru Apache Spark ve službě Azure HDInsight
IntelliJ	Kurz: Vytvoření aplikací Apache Spark pro cluster HDInsight pomocí sady Azure Toolkit for IntelliJ
IntelliJ	Kurz: Vytvoření aplikace Scala Maven pro Apache Spark ve službě HDInsight pomocí IntelliJ
Poznámkové bloky Zeppelin	Použití poznámkových bloků Apache Zeppelin s clusterem Apache Spark ve službě Azure HDInsight
Odeslání vzdálené úlohy pomocí Livy	Odesílání vzdálených úloh do clusteru HDInsight Spark pomocí rozhraní Apache Spark REST API
Apache Oozie	Oozie je pracovní postup a koordinační systém, který spravuje úlohy Hadoopu.
Apache Livy	Livy můžete použít ke spouštění interaktivních prostředí Spark nebo odesílání dávkových úloh, které se mají spustit ve Sparku.
Azure Data Factory pro Apache Spark	Aktivita Sparku v kanálu Data Factory spouští program Sparku ve vašem vlastním nebo [clusteru HDInsight na vyžádání.
Azure Data Factory pro Apache Hive	Aktivita HDInsight Hive v kanálu služby Data Factory spouští dotazy Hive ve vašem vlastním clusteru NEBO clusteru HDInsight na vyžádání.

Návody monitorování a ladění úloh Sparku?

Možnost	Dokumenty
Azure Toolkit for IntelliJ	Ladění úloh Sparku se selháním s využitím sady Azure Toolkit for IntelliJ (Preview)
Azure Toolkit for IntelliJ prostřednictvím SSH	Místní nebo vzdálené ladění aplikací Apache Spark v clusteru HDInsight pomocí sady Azure Toolkit for IntelliJ přes SSH
Azure Toolkit for IntelliJ prostřednictvím sítě VPN	Použití sady Azure Toolkit for IntelliJ k vzdálenému ladění aplikací Apache Spark ve službě HDInsight prostřednictvím sítě VPN
Graf úloh na serveru historie Apache Sparku	Ladění a diagnostika aplikací Apache Spark pomocí rozšířeného serveru historie Apache Sparku

Návody, aby moje úlohy Spark běžely efektivněji?

Možnost	Dokumenty
Vstupně-výstupní mezipaměť	Zvýšení výkonu úloh Apache Sparku pomocí azure HDInsight IO Cache (Preview)
Možnosti konfigurace	Optimalizace úloh Apache Sparku

Návody připojit se k jiným službám Azure?

Možnost	Dokumenty
Apache Hive ve službě HDInsight	Integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse
Apache HBase ve službě HDInsight	Použití Apache Sparku ke čtení a zápisu dat Apache HBase
Apache Kafka ve službě HDInsight	Kurz: Použití strukturovaného streamování Apache Sparku s Apache Kafka ve službě HDInsight
Azure Cosmos DB	Azure Synapse Link pro Azure Cosmos DB

Jaké jsou možnosti úložiště?

Možnost	Dokumenty
Azure Data Lake Storage Gen2	Použití služby Azure Data Lake Storage Gen2 s clustery Azure HDInsight
Azure Blob Storage	Použití úložiště Azure s clustery Azure HDInsight

Další kroky