Partilhar via


Como criar pools Spark personalizados no Microsoft Fabric

Neste documento, explicamos como criar pools personalizados do Apache Spark no Microsoft Fabric para suas cargas de trabalho de análise. Os pools do Apache Spark permitem que os usuários criem ambientes de computação personalizados com base em seus requisitos específicos, garantindo o desempenho ideal e a utilização de recursos.

Você especifica os nós mínimo e máximo para dimensionamento automático. Com base nesses valores, o sistema adquire e retira dinamicamente nós conforme os requisitos de computação da tarefa mudam, o que resulta em uma escalabilidade eficiente e um melhor desempenho. A alocação dinâmica de executores em pools Spark também alivia a necessidade de configuração manual do executor. Em vez disso, o sistema ajusta o número de executores dependendo do volume de dados e das necessidades de computação no nível do trabalho. Esse processo permite que você se concentre em suas cargas de trabalho sem se preocupar com otimização de desempenho e gerenciamento de recursos.

Observação

Para criar um pool do Spark personalizado, você precisa de acesso de administrador ao espaço de trabalho. O administrador de capacidade deve habilitar a opção Pools de espaços de trabalho personalizados na seção Spark Compute das configurações do Administrador de Capacidade . Para saber mais, consulte Configurações de computação do Spark para capacidades de malha.

Criar pools Spark personalizados

Para criar ou gerenciar o pool do Spark associado ao seu espaço de trabalho:

  1. Vá para o seu espaço de trabalho e selecione Configurações do espaço de trabalho.

  2. Selecione a opção de Engenharia/Ciência de Dados para expandir o menu e, em seguida, selecione Configurações do Spark.

    Captura de ecrã a mostrar a vista de detalhes das Definições do Spark.

  3. Selecione a opção New Pool. No ecrã Criar Pool, nomeie o seu pool do Spark. Escolha também a família de nóse selecione um tamanho de nó entre os tamanhos disponíveis (Small, Medium, Large, X-Largee XX-Large) com base nos requisitos de computação para as suas cargas de trabalho.

    Captura de tela mostrando opções personalizadas de criação de pool.

  4. Você pode definir a configuração mínima do nó para seus pools personalizados como 1. Como o Fabric Spark fornece disponibilidade restaurável para clusters com um único nó, não é necessário preocupar-se com falhas de tarefas, perda de sessão durante falhas ou excesso de custos com computação para tarefas menores do Spark.

  5. Você pode habilitar ou desabilitar o dimensionamento automático para seus pools Spark personalizados. Quando o dimensionamento automático estiver habilitado, o pool adquirirá dinamicamente novos nós até o limite máximo de nós especificado pelo usuário e, em seguida, os desativará após a execução do trabalho. Esse recurso garante um melhor desempenho ajustando os recursos com base nos requisitos do trabalho. Você está autorizado a dimensionar os nós, que se encaixam nas unidades de capacidade adquiridas como parte do SKU de capacidade do Fabric.

    Captura de tela mostrando opções de criação de pool personalizadas para dimensionamento automático e alocação dinâmica.

  6. Você também pode optar por habilitar a alocação dinâmica de executores para seu pool do Spark, que determina automaticamente o número ideal de executores dentro do limite máximo especificado pelo usuário. Esse recurso ajusta o número de executores com base no volume de dados, resultando em melhor desempenho e utilização de recursos.

Esses pools personalizados têm uma duração de pausa automática padrão de 2 minutos. Quando a duração da pausa automática é atingida, a sessão expira e os clusters não são alocados. Você é cobrado com base no número de nós e na duração durante a qual os pools Spark personalizados são usados.

  • Saiba mais na documentação pública do Apache Spark .
  • Introdução às configurações de administração do espaço de trabalho Spark no Microsoft Fabric.