Compartilhar via


Validar um cluster do Azure Stack HCI

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019.

Importante

O Azure Stack HCI agora faz parte do Azure Local. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Mais informações.

Aviso

As instruções de implantação fornecidas neste artigo aplicam-se a uma versão mais antiga, Azure Stack HCI, versão 22H2. Para novas implantações, recomendamos que você use a versão mais recente disponível em geral do Azure Local, consulte Sobre a implantação do Azure Local.

Validar DCB não é mais a ferramenta recomendada para configurar ou testar sua configuração de rede de host no Azure Stack HCI. Recomendamos usar o Network ATC para configurar a rede de anfitrião para o Azure Stack HCI. Network ATC sempre tem precedência sobre Validar DCB no Azure Stack HCI.

Embora o assistente Criar cluster no Windows Admin Center execute determinadas validações para criar um cluster de trabalho com o hardware selecionado, a validação de cluster executa verificações adicionais para garantir que o cluster funcione em um ambiente de produção. Este artigo de instruções se concentra em por que a validação de cluster é importante e quando executá-la em um cluster HCI do Azure Stack.

Recomendamos executar a validação de cluster para os seguintes cenários primários:

  • Depois de implantar um cluster de servidor, execute a ferramenta Validate-DCB para testar a rede.
  • Depois de atualizar um cluster de servidor, dependendo do cenário, execute ambas as opções de validação para solucionar problemas de cluster.
  • Depois de configurar a replicação com a Réplica de Armazenamento, valide se a replicação está prosseguindo normalmente verificando alguns eventos específicos e executando alguns comandos.
  • Depois de criar um cluster de servidores, execute a ferramenta Validate-DCB antes de colocá-la em produção.

O que é a validação de cluster?

A validação de cluster destina-se a detetar problemas de hardware ou configuração antes que um cluster entre em produção. A validação de cluster ajuda a garantir que a solução Azure Stack HCI que você está prestes a implantar seja realmente confiável. Você também pode usar a validação de cluster em clusters de failover configurados como uma ferramenta de diagnóstico.

Cenários de validação específicos

Esta seção descreve cenários nos quais a validação também é necessária ou útil.

  • Validação antes de o cluster ser configurado:

    • Um conjunto de servidores prontos para se tornar um cluster de failover: este é o cenário de validação mais simples. Os componentes de hardware (sistemas, redes e armazenamento) estão conectados, mas os sistemas ainda não estão funcionando como um cluster. A execução de testes nessa situação não tem efeito sobre a disponibilidade.

    • VMs de servidor: para servidores virtualizados em um cluster, execute a validação de cluster como faria em qualquer outro cluster novo. O requisito para executar o recurso é o mesmo se você tiver:

      • Um "cluster de host" onde o failover ocorre entre dois computadores físicos.
      • Um "cluster convidado" onde o failover ocorre entre sistemas operacionais convidados no mesmo computador físico.
  • Validação após o cluster estar configurado e em uso:

    • Antes de adicionar um servidor ao cluster: quando você adiciona um servidor a um cluster, é altamente recomendável validar o cluster. Especifique os membros do cluster existentes e o novo servidor ao executar a validação do cluster.

    • Ao adicionar unidades: quando você adiciona unidades adicionais ao cluster, o que é diferente de substituir unidades com falha ou criar discos virtuais ou volumes que dependem das unidades existentes, execute a validação do cluster para confirmar se o novo armazenamento funcionará corretamente.

    • Ao fazer alterações que afetam o firmware ou drivers: Se você atualizar ou fizer alterações no cluster que afetem firmware ou drivers, deverá executar a validação do cluster para confirmar se a nova combinação de hardware, firmware, drivers e software oferece suporte à funcionalidade de cluster de failover.

    • Depois de restaurar um sistema a partir do backup: Depois de restaurar um sistema a partir do backup, execute a validação do cluster para confirmar se o sistema funciona corretamente como parte de um cluster.

Validar a rede

A ferramenta Microsoft Validate-DCB foi projetada para validar a configuração DCB (Data Center Bridging) no cluster. Para fazer isso, a ferramenta usa uma configuração esperada como entrada e, em seguida, testa cada servidor no cluster. Esta seção aborda como instalar e executar a ferramenta Validate-DCB, revisar os resultados e resolver erros de rede identificados pela ferramenta.

Nota

A Microsoft recomenda implantar e gerenciar sua configuração com ATC de rede, o que elimina a maioria dos desafios de configuração que a ferramenta Validate-DCB verifica. Para saber mais sobre o Network ATC, que fornece uma abordagem baseada em intenções para a implementação de rede de anfitrião, consulte Simplificar a rede de anfitrião com Network ATC.

Na rede, o acesso remoto direto à memória (RDMA) através de Ethernet convergente (RoCE) requer tecnologias DCB para tornar a malha de rede sem perdas. Com o iWARP, o DCB é opcional. No entanto, a configuração do DCB pode ser complexa, sendo necessária uma configuração exata em todos os aspetos.

  • Cada servidor no agrupamento
  • Cada porta de rede pela qual o tráfego RDMA passa na rede

Pré-requisitos

  • Informações de configuração de rede do cluster de servidor que você deseja validar, incluindo:
    • Nome do host ou cluster de servidor
    • Nome do comutador virtual
    • Nomes de adaptadores de rede
    • Configurações de controle de fluxo prioritário (PFC) e seleção aprimorada de transmissão (ETS)
  • Uma conexão com a Internet para baixar o módulo de ferramenta no Windows PowerShell da Microsoft.

Instalar e executar a ferramenta Validate-DCB

Para instalar e executar a ferramenta Validate-DCB:

  1. No computador de gerenciamento, abra uma sessão do Windows PowerShell como administrador e use o seguinte comando para instalar a ferramenta.

    Install-Module Validate-DCB
    
  2. Aceite as solicitações para usar o provedor NuGet e acesse o repositório para instalar a ferramenta.

  3. Depois que o PowerShell se conectar à rede da Microsoft para baixar a ferramenta, digite Validate-DCB e pressione Enter para iniciar o assistente da ferramenta.

    Nota

    Se não for possível executar o script da ferramenta Validate-DCB, talvez seja necessário ajustar as políticas de execução do PowerShell. Use o cmdlet Get-ExecutionPolicy para exibir suas configurações atuais de política de execução de script. Para obter informações sobre como definir políticas de execução no PowerShell, consulte Sobre políticas de execução.

  4. Na página Bem-vindo ao assistente de configuração Validate-DCB, selecione Avançar.

  5. Na página Clusters e Nós, introduza o nome do cluster de servidor que pretende validar, selecione Resolver para listá-lo na página e, em seguida, selecione Avançar.

    A página Clusters e Nós do assistente de configuração Validate-DCB

  6. Na página Adaptadores:

    1. Marque a caixa de seleção vSwitch anexado e digite o nome do vSwitch.
    2. Em Nome do adaptador, digite o nome de cada NIC física, em Nome da vNIC do host, o nome de cada NIC virtual (vNIC) e, em VLAN, a ID da VLAN em uso para cada adaptador.
    3. Expanda a caixa de listagem suspensa RDMA Tipo e selecione o protocolo apropriado: RoCE ou iWARP. Defina também Jumbo Frames com o valor apropriado para a sua rede, e em seguida selecione Seguinte.

    A página Adaptadores do assistente de configuração Validate-DCB

    Nota

  7. Na página Data Center Bridging, modifique os valores para corresponder às configurações da sua organização para Prioridade, Nome da Política e Reserva de Largura de Banda e selecione Avançar.

    A página Data Center Bridging do assistente de configuração Validate-DCB

    Nota

    Selecionar RDMA sobre RoCE na página anterior do assistente requer DCB para confiabilidade de rede em todas as NICs e switchports.

  8. Na página Salvar e Implantar, na caixa Caminho do Arquivo de Configuração , salve o arquivo de configuração usando a extensão .ps1 em um local onde possa usá-lo novamente mais tarde, se necessário, e selecione Exportar para começar a executar a ferramenta Validate-DCB.

    • Opcionalmente, pode-se instalar o ficheiro de configuração completando a secção Implantar Configuração em Nós, que permite usar uma conta de Automação do Azure para instalar a configuração e, em seguida, validá-la. Consulte Criar uma conta de Automação do Azure para começar a usar a Automação do Azure.

    A página Salvar e Implantar do assistente de configuração Validate-DCB

Rever os resultados e corrigir erros

A ferramenta Validate-DCB produz resultados em duas unidades:

  1. Os resultados da [Unidade Global] listam os pré-requisitos e requisitos para executar os testes modais.
  2. Os resultados da [Unidade Modal] fornecem feedback sobre cada configuração de host de cluster e práticas recomendadas.

Este exemplo mostra os resultados bem-sucedidos da verificação de um único servidor para todos os pré-requisitos e testes de unidade modal, indicando uma contagem de falhas de 0.

Validar os resultados dos testes da unidade global DCB e da unidade modal

As etapas a seguir mostram como identificar um erro Jumbo Packet do vNIC SMB02 e corrigi-lo:

  1. Os resultados das verificações da ferramenta Validate-DCB mostram um número de falhas de 1.

    Resultados da verificação da ferramenta Validate-DCB mostrando um erro de Contagem de Falha de 1

  2. Ao percorrer de volta os resultados, é mostrado um erro em vermelho indicando que o Jumbo Packet para a vNIC SMB02 no Host S046036 está configurado com o tamanho padrão de 1514, mas deveria estar configurado como 9014.

    Resultado da verificação da ferramenta Validate-DCB mostrando um erro na configuração do tamanho do pacote jumbo

  3. A revisão das propriedades avançadas do vNIC SMB02 no Host S046036 mostra que o Jumbo Packet está definido como o padrão Disabled.

    A configuração de Jumbo Packet nas propriedades avançadas do Hyper-V do anfitrião do servidor

  4. Para corrigir o erro, é necessário ativar o recurso Jumbo Packet e alterar seu tamanho para 9014 bytes. Executar a verificação novamente no host S046036 confirma essa alteração retornando uma Contagem com Falha de 0.

    Resultados da verificação do Validate-DCB confirmando que a configuração Jumbo Packet no host do servidor está estável

Para saber mais sobre como resolver erros identificados pela ferramenta Validate-DCB, veja o vídeo a seguir.

Você também pode instalar a ferramenta offline. Para sistemas desconectados, use Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB e mova os módulos em c:\temp\Validate-DCB para o sistema desconectado. Para obter mais informações, consulte o vídeo a seguir.

Validar o cluster

Use as etapas a seguir para validar os servidores em um cluster existente no Windows Admin Center.

  1. No Windows Admin Center, em Todas as conexões, selecione o cluster HCI do Azure Stack que você deseja validar e selecione Conectar.

    O Painel do Gerenciador de Cluster exibe informações gerais sobre o cluster.

  2. No Painel do Gerenciador de Clusters, em Ferramentas, selecione Servidores.

  3. Na página Inventário, selecione os servidores no cluster, expanda o submenu Mais e selecione Validar cluster.

  4. Na janela pop-up Validar Cluster, selecione Sim.

    Janela pop-up de validação do cluster

  5. Na janela pop-up CredSSP (Credential Security Service Provider), selecione Sim.

  6. Forneça suas credenciais para habilitar o CredSSP e selecione Continuar.
    A validação de cluster é executada em segundo plano e fornece uma notificação quando estiver concluída, momento em que você poderá exibir o relatório de validação, conforme descrito na próxima seção.

Nota

Depois que os servidores de cluster tiverem sido validados, você precisará desabilitar o CredSSP por motivos de segurança.

Desativar CredSSP

Depois que o cluster de servidores for validado com êxito, você precisará desabilitar o protocolo CredSSP (Credential Security Support Provider) em cada servidor para fins de segurança. Para obter mais informações, consulte CVE-2018-0886.

  1. No Windows Admin Center, em Todas as ligações, selecione o primeiro servidor do cluster e, em seguida, selecione Ligar.

  2. Na página Visão geral, selecione Desativar CredSSP e, na janela pop-up Desabilitar CredSSP, selecione Sim.

    O resultado da Etapa 2 remove o banner vermelho CredSSP ENABLED na parte superior da página Visão geral do servidor e desativa o CredSSP nos outros servidores.

Ver relatórios de validação

Agora você está pronto para exibir seu relatório de validação de cluster.

Há algumas maneiras de acessar relatórios de validação:

  • Na página Inventário, expanda o submenu Mais e selecione Exibir relatórios de validação.

  • No canto superior direito do Windows Admin Center, selecione o ícone de sino de Notificações para exibir o painel de Notificações. Selecione o aviso de Cluster validado com êxito e, em seguida, selecione Ir para o relatório de validação do Cluster de Failover.

Nota

O processo de validação do cluster de servidor pode levar algum tempo para ser concluído. Não mude para outra ferramenta no Windows Admin Center enquanto o processo estiver em execução. No painel Notificações, uma barra de estado abaixo do aviso Validar cluster indica quando o processo é concluído.

Validar o cluster usando o PowerShell

Você também pode usar o Windows PowerShell para executar testes de validação em seu cluster de servidor e exibir os resultados. Você pode executar testes antes e depois da configuração de um cluster.

Para executar um teste de validação em um cluster de servidor, emita os cmdlets Get-Cluster e server clustername< PowerShell do seu computador de gerenciamento ou execute somente o > diretamente no cluster:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Para obter mais exemplos e informações de uso, consulte a documentação de referência do Test-Cluster .

O Test-NetStack é uma ferramenta de teste baseada em PowerShell disponível no GitHub que você pode usar para executar testes de tráfego ICMP, TCP e RDMA de redes e identificar possíveis malconfigurações de malha de rede e host ou instabilidade operacional. Utilize o Test-NetStack para validar caminhos de dados de rede, testando caminhos de dados de rede nativo, sintético e descarregados através de hardware (RDMA), identificando problemas de conectividade, fragmentação de pacotes, baixa taxa de transferência e congestionamento.

Validar replicação para réplica de armazenamento

Se você estiver usando a Réplica de Armazenamento para replicar volumes em um cluster estendido ou cluster para cluster, há vários eventos e cmdlets que você pode usar para obter o estado da replicação.

No cenário a seguir, configuramos a Réplica de Armazenamento criando grupos de replicação (RGs) para dois sites e, em seguida, especificamos os volumes de dados e volumes de log para os nós do servidor de origem no Site1 (Servidor1, Servidor2) e os nós do servidor de destino (replicados) no Site2 (Servidor3, Servidor4).

Para determinar o progresso da replicação para Server1 no Site1, execute o comando Get-WinEvent e examine os eventos 5015, 5002, 5004, 1237, 5001 e 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Para o Server3 no Site2, execute o seguinte comando Get-WinEvent para ver os eventos da Réplica de Armazenamento que mostram a criação da parceria. Este evento indica o número de bytes copiados e o tempo decorrido. Por exemplo:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Para Server3 no Site2, execute o comando e examine os Get-WinEvent eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso do processamento. Não deverá ser apresentado nenhum aviso de erro nesta sequência. Haverá muitos 1237 eventos - isto indica progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como alternativa, o grupo de servidores de destino da réplica indica o número de bytes restantes para copiar o tempo todo e pode ser consultado por meio do PowerShell com Get-SRGroup. Por exemplo:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Para o nó Server3 no Site2, execute o seguinte comando e examine os eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso da replicação. Não deve haver avisos de erros. No entanto, haverá muitos eventos "1237" - estes simplesmente indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como um script de progresso que não será encerrado:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Para obter o estado de replicação dentro do cluster estendido, use Get-SRGroup e Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Depois que a replicação de dados bem-sucedida for confirmada entre sites, você poderá criar suas VMs e outras cargas de trabalho.

Consulte também