Compartilhar via


Criando cluster de HPC Pack altamente disponível no Azure

Neste artigo, forneceremos as etapas e a consideração para criar um cluster de HPC Pack altamente disponível no Azure.

Consideração sobre o cluster alto disponível

Um cluster de HPC Pack típico consiste em um sql server com nossos bancos de dados que armazenam trabalhos de HPC; Um nó principal servidor que executa serviços críticos, como o serviço SDM do serviço de agendador; Um conjunto de nós de computação que se conectam aos serviços nas cargas de trabalho HPC do usuário de execução do nó principal. Além disso, também precisamos de um controlador de domínio que atenda à autenticação para os clientes. Todos esses componentes são intercon conectados por meio de rede.

Em um ambiente de nuvem do Azure, qualquer um dos componentes acima pode falhar, por exemplo, o nó principal reinicializado para o Windows Update, alguns nós de computação podem ser reinicializados porque você está usando a VM de baixa prioridade. Assim, como podemos configurar um cluster HPC Pack altamente disponível que satisfaça:

  1. Qualquer componente mencionado acima falhou, a carga de trabalho do usuário ainda pode ser executada sem ser cancelada ou com falha

  2. As tarefas em execução em nós de computação com falha devem ser agendadas novamente para outros nós de computação

  3. O cluster ainda poderá atender à funcionalidade, incluindo gerenciamento de cluster, gerenciamento de trabalho

Portanto, vamos discutir cada situação de falha de componente e sua solução de alta disponibilidade.

Lidando com falha de banco de dados

Você tem algumas opções para obter um banco de dados SQL altamente disponível na nuvem:

Lidando com falha de nó de cabeçalho

Configure pelo menos três nós principais do cluster. Com essa configuração, qualquer falha de nó principal resultará na movimentação do Serviço HPC ativo desse nó principal para outras pessoas.

Lidando com falha do AD

Quando o HPC não conseguiu se conectar ao controlador de domínio, o administrador e o usuário não poderão se conectar ao Serviço HPC, portanto, não conseguirão gerenciar e enviar trabalhos para o cluster. E novos trabalhos não poderão ser iniciados nos nós de computador ingressados no domínio, pois o serviço NodeManager não validou a credencial do trabalho. Portanto, você precisa considerar as opções abaixo:

  1. Ter um controlador de domínio altamente disponível implantado com o cluster do HPC Pack no Azure

  2. Usando o serviço domínio do Azure AD. Durante a implantação do cluster, você pode simplesmente ingressar todos os nós de cluster nesse domínio e obter o serviço de domínio altamente disponível do Azure.

  3. Usar solução de integração do Azure AD do HPC Pack sem que os nós de cluster ingressem em nenhum domínio. Assim, desde que o Serviço de HPC tenha conectividade com o serviço do Azure AD.

Lidando com falha de rede

A própria rede no data center do Azure está altamente disponível, portanto, não precisamos ter rede de backup.

Compilando cluster de HPC Pack altamente disponível

Temos um modelo do ARM aqui, selecione que é capaz de implantar um Cluster HPC de alta disponibilidade com opções de:

  1. Criar Banco de Dados SQL do Azure

  2. Conectar-se ao domínio existente do Active Directory

  3. Criar cluster do HPC Pack de nó de 3 cabeçalho

modelo de : cluster de alta disponibilidade com bancos de dados SQL do Azure para cargas de trabalho do Windows com domínio do Active Directory existente

Este modelo implanta um cluster HPC Pack com alta disponibilidade para cargas de trabalho do Windows HPC em uma floresta de domínio do Active Directory existente. O cluster inclui três nós principais, bancos de dados sql do Azure e um número configurável de nós de computação Windows.

Compartilhamentos de cluster do HPC Pack

Atualmente, em todos os modelos do ARM do HPC Pack, criamos o compartilhamento de cluster em um dos nós de cabeçalho que não está disponível como se esse nó principal estivesse inoperante, o compartilhamento não estará acessível ao Serviço HPC em execução em outro nó principal. Basicamente, isso não afetará a execução de trabalhos e o gerenciamento dos nós.

Com os Arquivos do Azure, esses compartilhamentos de arquivos podem ser movidos para compartilhamentos de Arquivos do Azure com permissões SMB para torná-los altamente disponíveis. Consulte este documento.

Nome do compartilhamento Uso Local padrão Impacto quando inoperante Maneira de disponibilizar alto
Compartilhamento de instalação remota Após a instalação do cluster, colocamos binários de instalação do HPC Pack nessa pasta de compartilhamento para que computadores cliente e computadores de computação possam fazer o diretório de instalação desse compartilhamento. \\<HN3>\REMINST Quando esse compartilhamento está inoperante ou não está acessível, ele não afeta nenhuma funcionalidade existente do Cluster HPC. O administrador do cluster também pode criar os mesmos compartilhamentos nos outros dois nós principais e copiar os binários configurados lá também para que qualquer nó de cabeçalho para baixo, o compartilhamento ainda esteja disponível
Compartilhamento de registro do HPC SOA Esse compartilhamento armazena o arquivo de registro de serviço SOA \\<HN3>\HpcServiceRegistration O trabalho de serviço SOA que depende dos arquivos de registro neste compartilhamento não será executado Ao registrar o novo arquivo de configuração de serviço SOA, não coloque o arquivo de registro em compartilhamento, mas usando Importar Arquivo de Configuração Alta Disponível... do Gerenciador de Cluster para importar o arquivo de registro do serviço SOA para o repositório confiável do Cluster HPC para que o arquivo de registro fique disponível mesmo quando o compartilhamento estiver inoperante
Compartilhamento de runtime do HPC SOA Esse compartilhamento armazena dados comuns do trabalho SOA \\<HN3>\Runtime$ O trabalho SOA com dados comuns falhará O cliente SOA precisa colocar os dados comuns no armazenamento do Azure para que os dados comuns ainda fiquem disponíveis, mesmo que o compartilhamento de runtime esteja inativo
HPC SOA TraceRepository O repositório de rastreamentos de diagnóstico soa. \\<HN3>\TraceRepository Se o rastreamento de diagnóstico soa estiver ativado, o rastreamento não será coletado. Use o compartilhamento de Arquivos do Azure.
Compartilhamento de Diagnóstico de HPC Esse compartilhamento armazena o resultado do teste de diagnóstico \\<HN3>\Diagnostics Quando esse compartilhamento estiver inoperante, o trabalho de Diagnóstico de HPC falhará, pois ele não tem lugar para gravar o resultado do teste. O administrador do cluster pode alternar para um novo compartilhamento de discagem quando quiser executar testes de discagem. Para alterar para um novo compartilhamento de discagem, execute o cmd do PowerShell do HPC
set-HpcClusterRegistry -PropertyName DiagnosticsShare -PropertyValue "\\<HN2>\diagnostics"
CcpSpoolDir Compartilhamento de spool de saída para nós de computação. \\<HN3>\CcpSpoolDir Se usada para a saída da tarefa, a tarefa não gravará dados de saída. Use o compartilhamento de Arquivos do Azure.