Início rápido: Criar um Pool do Apache Spark sem servidor usando o Synapse Studio

Artigo
12/19/2024

O Azure Synapse Analytics oferece vários mecanismos de análise para ajudá-lo a ingerir, transformar, modelar, analisar e fornecer seus dados. O Pool do Apache Spark oferece funcionalidades de software livre de computação de Big Data. Depois de criar um Pool do Spark no seu espaço de trabalho Synapse, os dados podem ser carregados, modelados, processados e servidos para obter insights.

Este início rápido descreve as etapas para criar um pool do Apache Spark em um workspace do Synapse usando o Synapse Studio.

Importante

A cobrança das instâncias do Spark será proporcional por minuto, independentemente de elas estarem sendo usadas ou não. Desligue a instância do Spark depois de terminar de usá-la ou defina um tempo limite curto. Para saber mais, confira a seção Recursos de limpeza deste artigo.

Observação

O Synapse Studio continuará a dar suporte aos arquivos de configuração baseados no terraform ou no bicep.

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

É necessário ter uma assinatura do Azure. Se necessário, crie uma conta gratuita do Azure
Você usará o workspace do Synapse.

Entre no Portal do Azure

Navegue até o workspace do Synapse

Navegue até o workspace do Synapse em que o pool do Apache Spark será criado digitando o nome do serviço (ou o nome do recurso diretamente) na barra de pesquisa.
Na lista de workspaces, digite o nome (ou parte do nome) do workspace a ser aberto. Para este exemplo, usamos um workspace chamado contosoanalytics.

Iniciar o Synapse Studio

Na visão geral do workspace, selecione a URL da Web do workspace para abrir o Synapse Studio.

Criar o pool do Apache Spark no Synapse Studio

Importante

O Runtime do Azure Synapse para Apache Spark 2.4 foi preterido e oficialmente não tem suporte desde setembro de 2023. Dado que Spark 3.1 e Spark 3.2 também são anunciados o fim do suporte, recomendamos que os clientes migrem para Spark 3.3.

Na home page do Synapse Studio, navegue até o Hub de Gerenciamento no painel de navegação esquerdo selecionando o ícone Gerenciar.
Uma vez no Hub de Gerenciamento, navegue até a seção Pools do Apache Spark para ver a lista atual de pools do Apache Spark disponíveis no workspace.
Selecione + Novo e o novo assistente de criação de pool do Apache Spark será exibido.

Insira os seguintes detalhes na guia Informações Básicas:

Configuração	Valor sugerido	Descrição
Nome do Pool do Apache Spark	Um nome de pool válido, como `contosospark`	Esse é o nome que o Pool do Apache Spark terá.
Tamanho do nó	Pequeno (4 vCPU/32 GB)	Defina isso com o menor tamanho para reduzir os custos deste início rápido
Autoescala	Desabilitado	Não precisamos de dimensionamento automático neste início rápido
Número de nós	8	Use um tamanho pequeno para limitar os custos do início rápido
Alocar executores dinamicamente	Desabilitado	Esta configuração é mapeada para a propriedade de alocação dinâmica na configuração do Spark para a alocação de executores do Aplicativo Spark. Não precisamos dimensionar automaticamente neste guia de início rápido.

Importante

Há limitações específicas relacionadas aos nomes que os pools do Apache Spark podem usar. Os nomes precisam conter apenas letras ou números, ter 15 caracteres ou menos, começar com uma letra, ser exclusivos no workspace e não devem conter palavras reservadas.

Na próxima aba, Configurações adicionais, deixe todas as configurações como padrão.
Selecione Marcas. Considere usar tags do Azure. Por exemplo, a tag “Owner” ou “CreatedBy” para identificar quem criou o recurso, e a tag “Environment” para identificar se esse recurso está em Produção, Desenvolvimento, etc. Para obter mais informações, confira Desenvolver sua estratégia de nomenclatura e marcação para recursos do Azure. Quando estiver pronto, selecione Revisar + criar.
Na guia Examinar + criar, verifique se os detalhes estão corretos com base no que foi inserido anteriormente e clique em Criar.
O pool do Apache Spark iniciará o processo de provisionamento.
Quando o provisionamento for concluído, o novo pool do Apache Spark aparecerá na lista.

Limpar recursos do pool do Apache Spark usando o Synapse Studio

Os passos seguintes eliminam a Pool do Spark do espaço de trabalho utilizando o Synapse Studio.

Aviso

A exclusão de um pool do Spark removerá o mecanismo de análise do workspace. Não será mais possível se conectar ao pool e todas as consultas, os pipelines e os notebooks que usam esse Pool do Spark deixarão de funcionar.

Se você quiser excluir o Pool do Spark, execute as seguintes etapas:

Navegue até os pools do Apache Spark no Hub de Gerenciamento no Synapse Studio.
Selecione as reticências ao lado do pool do Apache a ser excluído (nesse caso, contosospark) para mostrar os comandos do pool do Apache Spark.
Selecione Excluir.
Confirme a exclusão e selecione o botão Delete.
Quando o processo for concluído com êxito, o Pool do Apache Spark não estará mais listado nos recursos do workspace.

Compartilhar via

Início rápido: Criar um Pool do Apache Spark sem servidor usando o Synapse Studio

Pré-requisitos

Navegue até o workspace do Synapse

Iniciar o Synapse Studio

Criar o pool do Apache Spark no Synapse Studio

Limpar recursos do pool do Apache Spark usando o Synapse Studio

Comentários

Recursos adicionais

Compartilhar via

Início rápido: Criar um Pool do Apache Spark sem servidor usando o Synapse Studio

Pré-requisitos

Entre no Portal do Azure

Navegue até o workspace do Synapse

Iniciar o Synapse Studio

Criar o pool do Apache Spark no Synapse Studio

Limpar recursos do pool do Apache Spark usando o Synapse Studio

Conteúdo relacionado

Comentários

Recursos adicionais