Práticas recomendadas de pool

Artigo
01/21/2025

Este artigo explica o que são pools e como você pode configurá-los melhor. Para obter informações sobre como criar um pool, consulte Referência de configuração do pool.

Nota

Se sua carga de trabalho oferecer suporte à computação sem servidor, o Databricks recomenda o uso de computação sem servidor em vez de pools para aproveitar a computação sempre ativa e escalável. Consulte Conectar-se à computação sem servidor.

Considerações sobre o pool

Considere o seguinte ao criar um pool:

Crie pools usando tipos de instância e tempos de execução do Azure Databricks com base em cargas de trabalho de destino.
Quando possível, preencha pools com instâncias spot para reduzir custos. Use apenas pools de pontos como nós de trabalho. O nó do driver deve usar instâncias sob demanda.
Preencha pools com instâncias sob demanda para trabalhos com tempos de execução curtos e requisitos rigorosos de tempo de execução.
Use tags de pool e tags de cluster para gerenciar o faturamento.
Pré-preencha pools para garantir que as instâncias estejam disponíveis quando os clusters precisarem delas.

Criar pools com base em cargas de trabalho

Você pode minimizar o tempo de aquisição da instância criando um pool para cada tipo de instância e tempo de execução do Azure Databricks que sua organização normalmente usa. Por exemplo, se a maioria dos clusters de engenharia de dados usar o tipo de instância A, os clusters de ciência de dados usarem o tipo de instância B e os clusters de análise usarem o tipo de instância C, crie um pool com cada tipo de instância.

Usando pools de instâncias spot

Se o nó do driver e os nós de trabalho tiverem requisitos diferentes, use pools diferentes para cada um.

O Azure Databricks recomenda não usar instâncias spot para o nó do driver. Se você usar um pool spot para o nó de trabalho, selecione um pool sob demanda como seu tipo de driver.

Configure pools para usar instâncias sob demanda para trabalhos com tempos de execução curtos e requisitos estritos de tempo de execução. Use instâncias sob demanda para evitar que instâncias adquiridas sejam perdidas para um licitante mais alto no mercado à vista.

Configure pools para usar instâncias spot para clusters que oferecem suporte ao desenvolvimento interativo ou trabalhos que priorizam a economia de custos em detrimento da confiabilidade.

Pools de tags para gerenciar custos e faturamento

A marcação de pools no centro de custo correto permite gerenciar o custo e o estorno de uso. Você pode usar várias tags personalizadas para associar vários centros de custo a um pool. No entanto, é importante entender como as tags são propagadas quando um cluster é criado a partir de pools. As tags de pools se propagam para as instâncias subjacentes do provedor de nuvem, mas as tags do cluster não. Aplique todas as tags personalizadas necessárias para gerenciar o estorno do custo de computação do provedor de nuvem ao pool.

As tags de pool e as tags de cluster se propagam para a cobrança do Azure Databricks. Você pode usar a combinação de tags de cluster e pool para gerenciar o estorno das Unidades do Azure Databricks.

Para saber mais, consulte Uso de atributos usando tags.

Configurar pools para controlar o custo

Você pode usar as seguintes opções de configuração para ajudar a controlar o custo dos pools:

Defina o instâncias Min Idle como 0 para evitar pagar por instâncias em execução que não estão fazendo trabalho. A contrapartida é um possível aumento no tempo quando um cluster precisa adquirir uma nova instância.
Defina a Capacidade Máxima com base na utilização prevista. Isso define o limite máximo para o número máximo de instâncias usadas e ociosas no pool. Se um trabalho ou cluster solicitar uma instância de um pool em sua capacidade máxima, a solicitação falhará e o cluster não adquirirá mais instâncias. Portanto, o Databricks recomenda que você defina a capacidade máxima somente se houver uma cota de instância estrita ou restrição de orçamento.
Defina o Terminação Automática de Instância Ociosa tempo para fornecer um buffer entre quando a instância é liberada do cluster e quando é descartada do pool. Defina este parâmetro para um período que permita minimizar os custos, enquanto garante a disponibilidade de instâncias para trabalhos agendados. Por exemplo, o trabalho A está programado para ser executado às 8h00 e leva 40 minutos para ser concluído. O trabalho B está programado para ser executado às 9h00 e leva 30 minutos para ser concluído. Defina o tempo para Terminação Automática de Instâncias Inativas para 20 minutos, a fim de garantir que as instâncias retornadas ao pool após a conclusão do trabalho A estejam disponíveis quando o trabalho B for iniciado. A menos que sejam reivindicadas por outro cluster, essas instâncias são encerradas 20 minutos após o término da tarefa B.

Pré-preencher piscinas

Para se beneficiar totalmente dos pools, você pode pré-preencher os pools recém-criados. Defina as instâncias Min Idle maiores que zero na configuração do pool. Como alternativa, se você estiver seguindo a recomendação de definir esse valor como zero, use um trabalho inicial para garantir que os pools recém-criados tenham instâncias disponíveis para os clusters acessarem.

Com a abordagem de trabalho inicial, agende um trabalho com requisitos de tempo de execução flexíveis para ser executado antes de trabalhos com requisitos de desempenho mais rigorosos ou antes que os usuários comecem a usar clusters interativos. Após a conclusão do trabalho, as instâncias usadas para o trabalho são liberadas de volta para o pool. Defina a configuração Min Idle instance como 0 e defina o tempo de Terminação Automática de Instância Ociosa alto o suficiente para garantir que as instâncias ociosas permaneçam disponíveis para trabalhos subsequentes.

O uso de um trabalho inicial permite que as instâncias do pool girem, preencham o pool e permaneçam disponíveis para trabalhos downstream ou clusters interativos.

Partilhar via