Partilhar via


Planeamento da capacidade para clusters do HDInsight

Antes de implantar um cluster HDInsight, planeje a capacidade de cluster pretendida determinando o desempenho e a escala necessários. Esse planejamento ajuda a otimizar a usabilidade e os custos. Algumas decisões de capacidade de cluster não podem ser alteradas após a implantação. Se os parâmetros de desempenho mudarem, um cluster poderá ser desmontado e recriado sem perder os dados armazenados.

As principais perguntas a serem feitas para o planejamento de capacidade são:

  • Em qual região geográfica você deve implantar seu cluster?
  • De quanto armazenamento precisa?
  • Que tipo de cluster você deve implantar?
  • Que tamanho e tipo de máquina virtual (VM) seus nós de cluster devem usar?
  • Quantos nós de trabalho seu cluster deve ter?

Escolher uma região do Azure

A região do Azure determina onde seu cluster é provisionado fisicamente. Para minimizar a latência de leituras e gravações, o cluster deve estar perto de seus dados.

O HDInsight está disponível em muitas regiões do Azure. Para encontrar a região mais próxima, consulte Produtos disponíveis por região.

Escolha o local e o tamanho do armazenamento

Localização do armazenamento padrão

O armazenamento padrão, uma conta de Armazenamento do Azure ou o Armazenamento do Azure Data Lake, deve estar no mesmo local do cluster. O Armazenamento do Azure está disponível em todos os locais. O Armazenamento Data Lake está disponível em algumas regiões - consulte a disponibilidade atual do Armazenamento Data Lake.

Localização dos dados existentes

Se quiser usar uma conta de armazenamento existente ou o Armazenamento Data Lake como armazenamento padrão do cluster, implante o cluster nesse mesmo local.

Tamanho de armazenamento

Em um cluster implantado, você pode anexar outras contas de Armazenamento do Azure ou acessar outro Armazenamento Data Lake. Todas as contas de armazenamento devem estar no mesmo local do cluster. Um armazenamento Data Lake pode estar em um local diferente, embora grandes distâncias possam introduzir alguma latência.

O Armazenamento do Azure tem alguns limites de capacidade, enquanto o Armazenamento Data Lake é quase ilimitado. Um cluster pode acessar uma combinação de diferentes contas de armazenamento. Exemplos típicos incluem:

  • Quando é provável que a quantidade de dados exceda a capacidade de armazenamento de um único contêiner de armazenamento de blob.
  • Quando a taxa de acesso ao contêiner de blob pode exceder o limite onde ocorre a limitação.
  • Quando quiser tornar os dados, você já carregou para um contêiner de blob disponível para o cluster.
  • Quando você deseja isolar diferentes partes do armazenamento por motivos de segurança ou para simplificar a administração.

Para um melhor desempenho, use apenas um contêiner por conta de armazenamento.

Escolha um tipo de cluster

O tipo de cluster determina a carga de trabalho que o cluster HDInsight está configurado para executar. Os tipos incluem Apache Hadoop, Apache Kafka ou Apache Spark. Para obter uma descrição detalhada dos tipos de cluster disponíveis, consulte Introdução ao Azure HDInsight. Cada tipo de cluster tem uma topologia de implantação específica que inclui requisitos para o tamanho e o número de nós.

Escolha o tamanho e o tipo de VM

Cada tipo de cluster tem um conjunto de tipos de nó e cada tipo de nó tem opções específicas para o tamanho e o tipo de VM.

Para determinar o tamanho ideal do cluster para seu aplicativo, você pode comparar a capacidade do cluster e aumentar o tamanho conforme indicado. Por exemplo, você pode usar uma carga de trabalho simulada ou uma consulta canária. Execute suas cargas de trabalho simuladas em clusters de tamanhos diferentes. Aumente gradualmente o tamanho até que o desempenho pretendido seja alcançado. Uma consulta canária pode ser inserida periodicamente entre as outras consultas de produção para mostrar se o cluster tem recursos suficientes.

Para obter mais informações sobre como escolher a família de VMs certa para sua carga de trabalho, consulte Selecionando o tamanho de VM certo para seu cluster.

Escolha a escala do cluster

A escala de um cluster é determinada pela quantidade de seus nós VM. Para todos os tipos de cluster, há tipos de nó que têm uma escala específica e tipos de nó que suportam expansão. Por exemplo, um cluster pode exigir exatamente três nós do Apache ZooKeeper ou dois nós Head. Os nós de trabalho que fazem o processamento de dados de forma distribuída se beneficiam de outros nós de trabalho.

Dependendo do tipo de cluster, aumentar o número de nós de trabalho adiciona mais capacidade computacional (como mais núcleos). Mais nós aumentarão a memória total necessária para todo o cluster para suportar o armazenamento na memória dos dados que estão sendo processados. Tal como acontece com a escolha do tamanho e do tipo de VM, a seleção da escala de cluster correta é normalmente alcançada empiricamente. Use cargas de trabalho simuladas ou consultas canárias.

Você pode expandir seu cluster para atender às demandas de carga de pico. Em seguida, reduza-o quando esses nós extras não forem mais necessários. O recurso Autoscale permite dimensionar automaticamente o cluster com base em métricas e tempos predeterminados. Para obter mais informações sobre como dimensionar seus clusters manualmente, consulte Dimensionar clusters HDInsight.

Ciclo de vida do cluster

Você é cobrado pelo tempo de vida de um cluster. Se houver apenas momentos específicos em que você precisa do cluster, crie clusters sob demanda usando o Azure Data Factory. Você também pode criar scripts do PowerShell que provisionam e excluem seu cluster e, em seguida, agendar esses scripts usando a Automação do Azure.

Nota

Quando um cluster é excluído, seu metastore padrão do Hive também é excluído. Para persistir o metastore para a próxima recriação do cluster, use um repositório de metadados externo, como o Banco de Dados do Azure ou o Apache Oozie.

Isolar erros de trabalho de cluster

Às vezes, erros podem ocorrer devido à execução paralela de vários mapas e reduzir componentes em um cluster de vários nós. Para ajudar a isolar o problema, tente testes distribuídos. Execute vários trabalhos simultâneos em um único cluster de nó de trabalho. Em seguida, expanda essa abordagem para executar vários trabalhos simultaneamente em clusters contendo mais de um nó. Para criar um cluster HDInsight de nó único no Azure, use a Custom(size, settings, apps) opção e use um valor de 1 para Número de nós de trabalho na seção Tamanho do cluster ao provisionar um novo cluster no portal.

Exibir o gerenciamento de cotas do HDInsight

Exiba um nível granular e categorização da cota em um nível de família VM. Exiba a cota atual e a cota restante para uma região em um nível de família VM.

Nota

Esse recurso está atualmente disponível no HDInsight 4.x e 5.x para a região EUAP Leste dos EUA. Outras regiões a seguir posteriormente.

  1. Ver quota atual:

    Veja a cota atual e a cota restante para uma região em um nível de família VM.

    1. No portal do Azure, na barra de pesquisa superior, pesquise e selecione Cotas.

    2. Na página Cota, selecione Azure HDInsight

      Screenshot showing how to search quotas.

    3. Na caixa suspensa, selecione sua Assinatura e Região

      Screenshot showing how to select cluster and region for quota allocation.

      Screenshot showing how to view and manage quota.

  2. Solicitar novas cotas por família de VMs e região

    1. Clique na linha para a qual pretende ver os detalhes da quota.

    Screenshot showing the quota details.

Quotas

Para obter mais informações sobre como gerenciar cotas de assinatura, consulte Solicitando aumentos de cota.

Próximos passos