Pokyny pro Apache Spark
Tento článek obsahuje různé pokyny pro používání Apache Sparku ve službě Azure HDInsight.
Návody spustit nebo odeslat úlohy Sparku?
Možnost | Dokumenty |
---|---|
Visual Studio Code | Použití nástrojů Spark &Hive pro Visual Studio Code |
Poznámkové bloky Jupyter | Kurz: Načtení dat a spouštění dotazů v clusteru Apache Spark ve službě Azure HDInsight |
IntelliJ | Kurz: Vytvoření aplikací Apache Spark pro cluster HDInsight pomocí sady Azure Toolkit for IntelliJ |
IntelliJ | Kurz: Vytvoření aplikace Scala Maven pro Apache Spark ve službě HDInsight pomocí IntelliJ |
Poznámkové bloky Zeppelin | Použití poznámkových bloků Apache Zeppelin s clusterem Apache Spark ve službě Azure HDInsight |
Odeslání vzdálené úlohy pomocí Livy | Odesílání vzdálených úloh do clusteru HDInsight Spark pomocí rozhraní Apache Spark REST API |
Apache Oozie | Oozie je pracovní postup a koordinační systém, který spravuje úlohy Hadoopu. |
Apache Livy | Livy můžete použít ke spouštění interaktivních prostředí Spark nebo odesílání dávkových úloh, které se mají spustit ve Sparku. |
Azure Data Factory pro Apache Spark | Aktivita Sparku v kanálu Data Factory spouští program Sparku ve vašem vlastním nebo [clusteru HDInsight na vyžádání. |
Azure Data Factory pro Apache Hive | Aktivita HDInsight Hive v kanálu služby Data Factory spouští dotazy Hive ve vašem vlastním clusteru NEBO clusteru HDInsight na vyžádání. |
Návody monitorování a ladění úloh Sparku?
Možnost | Dokumenty |
---|---|
Azure Toolkit for IntelliJ | Ladění úloh Sparku se selháním s využitím sady Azure Toolkit for IntelliJ (Preview) |
Azure Toolkit for IntelliJ prostřednictvím SSH | Místní nebo vzdálené ladění aplikací Apache Spark v clusteru HDInsight pomocí sady Azure Toolkit for IntelliJ přes SSH |
Azure Toolkit for IntelliJ prostřednictvím sítě VPN | Použití sady Azure Toolkit for IntelliJ k vzdálenému ladění aplikací Apache Spark ve službě HDInsight prostřednictvím sítě VPN |
Graf úloh na serveru historie Apache Sparku | Ladění a diagnostika aplikací Apache Spark pomocí rozšířeného serveru historie Apache Sparku |
Návody, aby moje úlohy Spark běžely efektivněji?
Možnost | Dokumenty |
---|---|
Vstupně-výstupní mezipaměť | Zvýšení výkonu úloh Apache Sparku pomocí azure HDInsight IO Cache (Preview) |
Možnosti konfigurace | Optimalizace úloh Apache Sparku |
Návody připojit se k jiným službám Azure?
Možnost | Dokumenty |
---|---|
Apache Hive ve službě HDInsight | Integrace Apache Sparku a Apache Hivu s konektorem Hive Warehouse |
Apache HBase ve službě HDInsight | Použití Apache Sparku ke čtení a zápisu dat Apache HBase |
Apache Kafka ve službě HDInsight | Kurz: Použití strukturovaného streamování Apache Sparku s Apache Kafka ve službě HDInsight |
Azure Cosmos DB | Azure Synapse Link pro Azure Cosmos DB |
Jaké jsou možnosti úložiště?
Možnost | Dokumenty |
---|---|
Azure Data Lake Storage Gen2 | Použití služby Azure Data Lake Storage Gen2 s clustery Azure HDInsight |
Azure Blob Storage | Použití úložiště Azure s clustery Azure HDInsight |