Diretrizes do Apache Spark

Artigo
02/28/2025

Este artigo fornece várias diretrizes para usar o Apache Spark no Azure HDInsight.

Como executar ou enviar trabalhos do Spark?

Opção	Documentos
Visual Studio Code	Usar Ferramentas Spark e Hive para Visual Studio Code
Jupyter Notebooks	Tutorial: Carregar dados e executar consultas em um cluster Apache Spark no Azure HDInsight
IntelliJ	Tutoria: Use o Azure Toolkit for IntelliJ para criar aplicativos do Apache Spark para um cluster do HDInsight
IntelliJ	Tutorial: Criar um aplicativo Scala Maven para Apache Spark no HDInsight usando IntelliJ
Notebooks do Zeppelin	Usar notebooks do Apache Zeppelin com o cluster do Apache Spark no Azure HDInsight
Envio de trabalho remoto com Livy	Use a API REST do Apache Spark para enviar trabalhos remotos para um cluster do HDInsight Spark
Apache Oozie	O Oozie é um sistema de fluxo de trabalho e coordenação que gerencia trabalhos do Hadoop.
Apache Livy	Você pode usar a Livy para executar shells interativos do Spark ou enviar trabalhos em lotes a serem executados no Spark.
Data Factory do Azure para Apache Spark	A atividade do Spark em um pipeline do Data Factory executa um programa do Spark em seu cluster HDInsight próprio ou sob demanda.
Data Factory do Azure para Apache Hive	A atividade do Hive no HDInsight em um pipeline do Data Factory executa consultas do Hive em um cluster do HDInsight próprio ou sob demanda.

Como monitorar e depurar trabalhos do Spark?

Opção	Documentos
Kit de Ferramentas do Azure para IntelliJ	Falha na depuração do trabalho Spark com o Azure Toolkit for IntelliJ (versão prévia)
Kit de ferramentas do Azure para o IntelliJ por meio do SSH	Depurar aplicativos Apache Spark local ou remotamente em um cluster HDInsight com Azure Toolkit for IntelliJ por meio do SSH
Kit de ferramentas do Azure para o IntelliJ por meio de VPN	Usar o Azure Toolkit for IntelliJ para depurar aplicativos Apache Spark remotamente no HDInsight por meio de VPN
Gráfico de trabalho no Servidor de Histórico do Apache Spark	Use o Apache Spark History Server estendido para depurar e diagnosticar aplicativos do Apache Spark

Como fazer com que meus trabalhos do Spark sejam executados com mais eficiência?

Opção	Documentos
Cache de E/S	Melhorar o desempenho de cargas de trabalho do Apache Spark usando o Cache de E/S do Azure HDInsight (versão prévia)
Opções de configuração	Otimizar trabalhos do Apache Spark

Como se conectar a outros serviços do Azure?

Opção	Documentos
Apache Hive no HDInsight	Integrar o Apache Spark e Apache Hive ao Hive Warehouse Connector
Apache HBase no HDInsight	Usar o Apache Spark para ler e gravar dados do Apache HBase
Apache Kafka no HDInsight	Tutorial: Usar o fluxo estruturado do Apache Spark com o Apache Kafka no HDInsight
Azure Cosmos DB	Link do Azure Synapse para Azure Cosmos DB

Quais são minhas opções de armazenamento?

Opção	Documentos
Azure Data Lake Storage Gen2	Usar Gen2 de armazenamento do Azure Data Lake com clusters de HDInsight do Azure
Armazenamento do Blobs do Azure	Usar o Armazenamento do Azure com clusters do Azure HDInsight

Próximas etapas