Apache Spark-riktlinjer
Den här artikeln innehåller olika riktlinjer för att använda Apache Spark i Azure HDInsight.
Hur kör eller skickar jag Spark-jobb?
Hur övervakar och felsöker jag Spark-jobb?
Alternativ | Dokument |
---|---|
Azure Toolkit for IntelliJ | Fel vid felsökning av Spark-jobb med Azure Toolkit for IntelliJ (förhandsversion) |
Azure Toolkit for IntelliJ via SSH | Felsöka Apache Spark-program lokalt eller via fjärranslutning i ett HDInsight-kluster med Azure Toolkit for IntelliJ via SSH |
Azure Toolkit for IntelliJ via VPN | Använda Azure Toolkit for IntelliJ för att fjärrsöka Apache Spark-program i HDInsight via VPN |
Jobbdiagram på Apache Spark-historikserver | Använda utökad Apache Spark-historikserver för att felsöka och diagnostisera Apache Spark-program |
Hur gör jag för att mina Spark-jobb ska köras mer effektivt?
Alternativ | Dokument |
---|---|
I/O-cache | Förbättra prestanda för Apache Spark-arbetsbelastningar med Azure HDInsight IO Cache (förhandsversion) |
Konfigurationsalternativ | Optimera Apache Spark-jobb |
Hur ansluter jag till andra Azure-tjänster?
Alternativ | Dokument |
---|---|
Apache Hive på HDInsight | Integrera Apache Spark och Apache Hive med Hive Warehouse Connector |
Apache HBase på HDInsight | Använda Apache Spark för att läsa och skriva Apache HBase-data |
Apache Kafka på HDInsight | Självstudie: Använda Apache Spark Structured Streaming med Apache Kafka i HDInsight |
Azure Cosmos DB | Azure Synapse Link för Azure Cosmos DB |
Vilka är mina lagringsalternativ?
Alternativ | Dokument |
---|---|
Azure Data Lake Storage Gen2 | Använda Azure Data Lake Storage Gen2 med Azure HDInsight-kluster |
Azure Blob Storage | Använda Azure-lagring med Azure HDInsight-kluster |