Compartilhar via


Início rápido: Criar um Pool do Apache Spark sem servidor usando o Synapse Studio

O Azure Synapse Analytics oferece vários mecanismos de análise para ajudá-lo a ingerir, transformar, modelar, analisar e fornecer seus dados. O Pool do Apache Spark oferece funcionalidades de software livre de computação de Big Data. Depois de criar um Pool do Spark no seu espaço de trabalho Synapse, os dados podem ser carregados, modelados, processados e servidos para obter insights.

Este início rápido descreve as etapas para criar um pool do Apache Spark em um workspace do Synapse usando o Synapse Studio.

Importante

A cobrança das instâncias do Spark será proporcional por minuto, independentemente de elas estarem sendo usadas ou não. Desligue a instância do Spark depois de terminar de usá-la ou defina um tempo limite curto. Para saber mais, confira a seção Recursos de limpeza deste artigo.

Observação

O Synapse Studio continuará a dar suporte aos arquivos de configuração baseados no terraform ou no bicep.

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

Entre no Portal do Azure

Entre no Portal do Azure

  1. Navegue até o workspace do Synapse em que o pool do Apache Spark será criado digitando o nome do serviço (ou o nome do recurso diretamente) na barra de pesquisa. Captura de tela do portal do Azure da barra de pesquisa com espaços de trabalho do Synapse digitados.

  2. Na lista de workspaces, digite o nome (ou parte do nome) do workspace a ser aberto. Para este exemplo, usamos um workspace chamado contosoanalytics. Captura de tela do portal do Azure da lista de espaços de trabalho do Synapse filtrada para mostrar aqueles que contêm o nome Contoso.

Iniciar o Synapse Studio

Na visão geral do workspace, selecione a URL da Web do workspace para abrir o Synapse Studio.

Captura de tela do portal do Azure de uma visão geral do espaço de trabalho do Synapse com Iniciar o Synapse Studio realçado.

Criar o pool do Apache Spark no Synapse Studio

Importante

O Runtime do Azure Synapse para Apache Spark 2.4 foi preterido e oficialmente não tem suporte desde setembro de 2023. Dado que Spark 3.1 e Spark 3.2 também são anunciados o fim do suporte, recomendamos que os clientes migrem para Spark 3.3.

  1. Na home page do Synapse Studio, navegue até o Hub de Gerenciamento no painel de navegação esquerdo selecionando o ícone Gerenciar. Captura de tela do portal do Azure da página inicial do Synapse Studio com a seção Hub de Gerenciamento realçada.

  2. Uma vez no Hub de Gerenciamento, navegue até a seção Pools do Apache Spark para ver a lista atual de pools do Apache Spark disponíveis no workspace. Captura de tela do portal do Azure do hub de gerenciamento do Synapse Studio com a navegação de pools do Apache Spark selecionada.

  3. Selecione + Novo e o novo assistente de criação de pool do Apache Spark será exibido.

  4. Insira os seguintes detalhes na guia Informações Básicas:

    Configuração Valor sugerido Descrição
    Nome do Pool do Apache Spark Um nome de pool válido, como contosospark Esse é o nome que o Pool do Apache Spark terá.
    Tamanho do nó Pequeno (4 vCPU/32 GB) Defina isso com o menor tamanho para reduzir os custos deste início rápido
    Autoescala Desabilitado Não precisamos de dimensionamento automático neste início rápido
    Número de nós 8 Use um tamanho pequeno para limitar os custos do início rápido
    Alocar executores dinamicamente Desabilitado Esta configuração é mapeada para a propriedade de alocação dinâmica na configuração do Spark para a alocação de executores do Aplicativo Spark. Não precisamos dimensionar automaticamente neste guia de início rápido.

    Captura de tela do portal do Azure da seção Básico do novo pool do Apache Spark do Synapse Studio.

    Importante

    Há limitações específicas relacionadas aos nomes que os pools do Apache Spark podem usar. Os nomes precisam conter apenas letras ou números, ter 15 caracteres ou menos, começar com uma letra, ser exclusivos no workspace e não devem conter palavras reservadas.

  5. Na próxima aba, Configurações adicionais, deixe todas as configurações como padrão.

  6. Selecione Marcas. Considere usar tags do Azure. Por exemplo, a tag “Owner” ou “CreatedBy” para identificar quem criou o recurso, e a tag “Environment” para identificar se esse recurso está em Produção, Desenvolvimento, etc. Para obter mais informações, confira Desenvolver sua estratégia de nomenclatura e marcação para recursos do Azure. Quando estiver pronto, selecione Revisar + criar.

  7. Na guia Examinar + criar, verifique se os detalhes estão corretos com base no que foi inserido anteriormente e clique em Criar.

    Captura de tela do portal do Azure da criação do novo pool do Apache Spark do Synapse Studio.

  8. O pool do Apache Spark iniciará o processo de provisionamento.

  9. Quando o provisionamento for concluído, o novo pool do Apache Spark aparecerá na lista.

    Captura de tela do portal do Azure da nova lista de pools do Apache Spark do Synapse Studio.

Limpar recursos do pool do Apache Spark usando o Synapse Studio

Os passos seguintes eliminam a Pool do Spark do espaço de trabalho utilizando o Synapse Studio.

Aviso

A exclusão de um pool do Spark removerá o mecanismo de análise do workspace. Não será mais possível se conectar ao pool e todas as consultas, os pipelines e os notebooks que usam esse Pool do Spark deixarão de funcionar.

Se você quiser excluir o Pool do Spark, execute as seguintes etapas:

  1. Navegue até os pools do Apache Spark no Hub de Gerenciamento no Synapse Studio.

  2. Selecione as reticências ao lado do pool do Apache a ser excluído (nesse caso, contosospark) para mostrar os comandos do pool do Apache Spark.

    Captura de tela do portal do Azure de uma lista de pools do Apache Spark, com o pool recém-criado selecionado.

  3. Selecione Excluir.

  4. Confirme a exclusão e selecione o botão Delete.

  5. Quando o processo for concluído com êxito, o Pool do Apache Spark não estará mais listado nos recursos do workspace.