Compartilhar via


Diretrizes do Apache Spark

Este artigo fornece várias diretrizes para usar o Apache Spark no Azure HDInsight.

Como executar ou enviar trabalhos do Spark?

Opção Documentos
Visual Studio Code Usar Ferramentas Spark e Hive para Visual Studio Code
Jupyter Notebooks Tutorial: Carregar dados e executar consultas em um cluster Apache Spark no Azure HDInsight
IntelliJ Tutoria: Use o Azure Toolkit for IntelliJ para criar aplicativos do Apache Spark para um cluster do HDInsight
IntelliJ Tutorial: Criar um aplicativo Scala Maven para Apache Spark no HDInsight usando IntelliJ
Notebooks do Zeppelin Usar notebooks do Apache Zeppelin com o cluster do Apache Spark no Azure HDInsight
Envio de trabalho remoto com Livy Use a API REST do Apache Spark para enviar trabalhos remotos para um cluster do HDInsight Spark
Apache Oozie O Oozie é um sistema de fluxo de trabalho e coordenação que gerencia trabalhos do Hadoop.
Apache Livy Você pode usar a Livy para executar shells interativos do Spark ou enviar trabalhos em lotes a serem executados no Spark.
Data Factory do Azure para Apache Spark A atividade do Spark em um pipeline do Data Factory executa um programa do Spark em seu cluster HDInsight próprio ou sob demanda.
Data Factory do Azure para Apache Hive A atividade do Hive no HDInsight em um pipeline do Data Factory executa consultas do Hive em um cluster do HDInsight próprio ou sob demanda.

Como monitorar e depurar trabalhos do Spark?

Opção Documentos
Kit de Ferramentas do Azure para IntelliJ Falha na depuração do trabalho Spark com o Azure Toolkit for IntelliJ (versão prévia)
Kit de ferramentas do Azure para o IntelliJ por meio do SSH Depurar aplicativos Apache Spark local ou remotamente em um cluster HDInsight com Azure Toolkit for IntelliJ por meio do SSH
Kit de ferramentas do Azure para o IntelliJ por meio de VPN Usar o Azure Toolkit for IntelliJ para depurar aplicativos Apache Spark remotamente no HDInsight por meio de VPN
Gráfico de trabalho no Servidor de Histórico do Apache Spark Use o Apache Spark History Server estendido para depurar e diagnosticar aplicativos do Apache Spark

Como fazer com que meus trabalhos do Spark sejam executados com mais eficiência?

Opção Documentos
Cache de E/S Melhorar o desempenho de cargas de trabalho do Apache Spark usando o Cache de E/S do Azure HDInsight (versão prévia)
Opções de configuração Otimizar trabalhos do Apache Spark

Como se conectar a outros serviços do Azure?

Opção Documentos
Apache Hive no HDInsight Integrar o Apache Spark e Apache Hive ao Hive Warehouse Connector
Apache HBase no HDInsight Usar o Apache Spark para ler e gravar dados do Apache HBase
Apache Kafka no HDInsight Tutorial: Usar o fluxo estruturado do Apache Spark com o Apache Kafka no HDInsight
Azure Cosmos DB Link do Azure Synapse para Azure Cosmos DB

Quais são minhas opções de armazenamento?

Opção Documentos
Azure Data Lake Storage Gen2 Usar Gen2 de armazenamento do Azure Data Lake com clusters de HDInsight do Azure
Armazenamento do Blobs do Azure Usar o Armazenamento do Azure com clusters do Azure HDInsight

Próximas etapas