Diretrizes do Apache Spark
Este artigo fornece várias diretrizes para usar o Apache Spark no Azure HDInsight.
Como executar ou enviar trabalhos do Spark?
Opção | Documentos |
---|---|
Visual Studio Code | Usar Ferramentas Spark e Hive para Visual Studio Code |
Jupyter Notebooks | Tutorial: Carregar dados e executar consultas em um cluster Apache Spark no Azure HDInsight |
IntelliJ | Tutoria: Use o Azure Toolkit for IntelliJ para criar aplicativos do Apache Spark para um cluster do HDInsight |
IntelliJ | Tutorial: Criar um aplicativo Scala Maven para Apache Spark no HDInsight usando IntelliJ |
Notebooks do Zeppelin | Usar notebooks do Apache Zeppelin com o cluster do Apache Spark no Azure HDInsight |
Envio de trabalho remoto com Livy | Use a API REST do Apache Spark para enviar trabalhos remotos para um cluster do HDInsight Spark |
Apache Oozie | O Oozie é um sistema de fluxo de trabalho e coordenação que gerencia trabalhos do Hadoop. |
Apache Livy | Você pode usar a Livy para executar shells interativos do Spark ou enviar trabalhos em lotes a serem executados no Spark. |
Data Factory do Azure para Apache Spark | A atividade do Spark em um pipeline do Data Factory executa um programa do Spark em seu cluster HDInsight próprio ou sob demanda. |
Data Factory do Azure para Apache Hive | A atividade do Hive no HDInsight em um pipeline do Data Factory executa consultas do Hive em um cluster do HDInsight próprio ou sob demanda. |
Como monitorar e depurar trabalhos do Spark?
Opção | Documentos |
---|---|
Kit de Ferramentas do Azure para IntelliJ | Falha na depuração do trabalho Spark com o Azure Toolkit for IntelliJ (versão prévia) |
Kit de ferramentas do Azure para o IntelliJ por meio do SSH | Depurar aplicativos Apache Spark local ou remotamente em um cluster HDInsight com Azure Toolkit for IntelliJ por meio do SSH |
Kit de ferramentas do Azure para o IntelliJ por meio de VPN | Usar o Azure Toolkit for IntelliJ para depurar aplicativos Apache Spark remotamente no HDInsight por meio de VPN |
Gráfico de trabalho no Servidor de Histórico do Apache Spark | Use o Apache Spark History Server estendido para depurar e diagnosticar aplicativos do Apache Spark |
Como fazer com que meus trabalhos do Spark sejam executados com mais eficiência?
Opção | Documentos |
---|---|
Cache de E/S | Melhorar o desempenho de cargas de trabalho do Apache Spark usando o Cache de E/S do Azure HDInsight (versão prévia) |
Opções de configuração | Otimizar trabalhos do Apache Spark |
Como se conectar a outros serviços do Azure?
Opção | Documentos |
---|---|
Apache Hive no HDInsight | Integrar o Apache Spark e Apache Hive ao Hive Warehouse Connector |
Apache HBase no HDInsight | Usar o Apache Spark para ler e gravar dados do Apache HBase |
Apache Kafka no HDInsight | Tutorial: Usar o fluxo estruturado do Apache Spark com o Apache Kafka no HDInsight |
Azure Cosmos DB | Link do Azure Synapse para Azure Cosmos DB |
Quais são minhas opções de armazenamento?
Opção | Documentos |
---|---|
Azure Data Lake Storage Gen2 | Usar Gen2 de armazenamento do Azure Data Lake com clusters de HDInsight do Azure |
Armazenamento do Blobs do Azure | Usar o Armazenamento do Azure com clusters do Azure HDInsight |