Usar o Spark no Azure Synapse Analytics

Concluído

Você pode executar muitos tipos diferentes de aplicativos no Spark, incluindo código em scripts Python ou Scala, código Java compilado como JAR (Arquivo Java) e outros. O Spark é normalmente usado em dois tipos de carga de trabalho:

  • Trabalhos de processamento em lote ou fluxo para ingerir, limpar e transformar dados (geralmente em execução como parte de um pipeline automatizado).
  • Sessões de análise interativas para explorar, analisar e visualizar dados.

Executando código Spark em notebooks

O Azure Synapse Studio inclui uma interface de notebook integrada para trabalhar com o Spark. Os notebooks fornecem uma forma intuitiva de combinar código com anotações Markdown, normalmente usados por cientistas e analistas de dados. A aparência da experiência de notebook integrada no Azure Synapse Studio é semelhante à do Jupyter Notebooks (plataforma de notebooks de código aberto popular).

Captura de tela de um notebook no Azure Synapse Studio.

Observação

Embora geralmente sejam usados interativamente, os notebooks podem ser incluídos em pipelines automatizados e executados como scripts autônomos.

Os notebooks consistem em uma ou mais células, cada uma contendo código ou Markdown. As células de código nos notebooks têm alguns recursos que podem ajudar você a ser mais produtivo, incluindo:

  • Realce de sintaxe e suporte a erros.
  • Preenchimento automático de código.
  • Visualização de dados interativas.
  • Exportação de resultados.

Dica

Para saber mais sobre como trabalhar com notebooks no Azure Synapse Analytics, confira o artigo Criar, desenvolver e manter notebooks Synapse no Azure Synapse Analytics na documentação do Azure Synapse Analytics.

Acessando dados de um pool do Synapse Spark

Você pode usar o Spark no Azure Synapse Analytics para trabalhar com os dados de várias fontes, incluindo:

  • Um data lake baseado na conta de armazenamento primária do workspace do Azure Synapse Analytics.
  • Um data lake baseado no armazenamento definido como um serviço vinculado no workspace.
  • Um pool de SQL dedicado ou sem servidor no workspace.
  • Um banco de dados SQL do Azure ou do SQL Server (usando o conector do Spark para SQL Server)
  • Um banco de dados analíticos do Azure Cosmos DB definido como um serviço vinculado e configurado usando o Link do Azure Synapse para Cosmos DB.
  • Um banco de dados Kusto do Azure Data Explorer definido como um serviço vinculado no workspace.
  • Um metastore do Hive externo definido como um serviço vinculado no workspace.

Um dos usos mais comuns do Spark é trabalhar com os dados em um data lake, em que você pode ler e gravar arquivos em vários formatos popularmente usados, incluindo texto delimitado, Parquet, Avro e outros.