Partilhar via


Validar um cluster do Azure Stack HCI

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019.

Importante

O Azure Stack HCI agora faz parte do Azure Local. A renomeação da documentação do produto está em andamento. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Mais informações.

Aviso

As instruções de implantação fornecidas neste artigo aplicam-se a uma versão mais antiga, Azure Stack HCI, versão 22H2. Para novas implantações, recomendamos que você use a versão mais recente disponível em geral do Azure Local, consulte Sobre a implantação do Azure Local.

Validar DCB não é mais a ferramenta recomendada para configurar ou testar sua configuração de rede de host no Azure Stack HCI. Recomendamos usar o ATC de Rede para configurar sua configuração de rede de host para o Azure Stack HCI. O ATC de rede sempre substitui Validar DCB no Azure Stack HCI.

Embora o assistente Criar cluster no Windows Admin Center execute determinadas validações para criar um cluster de trabalho com o hardware selecionado, a validação de cluster executa verificações adicionais para garantir que o cluster funcione em um ambiente de produção. Este artigo de instruções se concentra em por que a validação de cluster é importante e quando executá-la em um cluster HCI do Azure Stack.

Recomendamos executar a validação de cluster para os seguintes cenários primários:

  • Depois de implantar um cluster de servidor, execute a ferramenta Validate-DCB para testar a rede.
  • Depois de atualizar um cluster de servidor, dependendo do cenário, execute ambas as opções de validação para solucionar problemas de cluster.
  • Depois de configurar a replicação com a Réplica de Armazenamento, valide se a replicação está prosseguindo normalmente verificando alguns eventos específicos e executando alguns comandos.
  • Depois de criar um cluster de servidores, execute a ferramenta Validate-DCB antes de colocá-la em produção.

O que é a validação de cluster?

A validação de cluster destina-se a detetar problemas de hardware ou configuração antes que um cluster entre em produção. A validação de cluster ajuda a garantir que a solução Azure Stack HCI que você está prestes a implantar seja realmente confiável. Você também pode usar a validação de cluster em clusters de failover configurados como uma ferramenta de diagnóstico.

Cenários de validação específicos

Esta seção descreve cenários nos quais a validação também é necessária ou útil.

  • Validação antes de o cluster ser configurado:

    • Um conjunto de servidores prontos para se tornar um cluster de failover: este é o cenário de validação mais simples. Os componentes de hardware (sistemas, redes e armazenamento) estão conectados, mas os sistemas ainda não estão funcionando como um cluster. A execução de testes nessa situação não tem efeito sobre a disponibilidade.

    • VMs de servidor: para servidores virtualizados em um cluster, execute a validação de cluster como faria em qualquer outro cluster novo. O requisito para executar o recurso é o mesmo se você tiver:

      • Um "cluster de host" onde o failover ocorre entre dois computadores físicos.
      • Um "cluster convidado" onde o failover ocorre entre sistemas operacionais convidados no mesmo computador físico.
  • Validação após o cluster estar configurado e em uso:

    • Antes de adicionar um servidor ao cluster: quando você adiciona um servidor a um cluster, é altamente recomendável validar o cluster. Especifique os membros do cluster existentes e o novo servidor ao executar a validação do cluster.

    • Ao adicionar unidades: quando você adiciona unidades adicionais ao cluster, o que é diferente de substituir unidades com falha ou criar discos virtuais ou volumes que dependem das unidades existentes, execute a validação do cluster para confirmar se o novo armazenamento funcionará corretamente.

    • Ao fazer alterações que afetam o firmware ou drivers: Se você atualizar ou fizer alterações no cluster que afetem firmware ou drivers, deverá executar a validação do cluster para confirmar se a nova combinação de hardware, firmware, drivers e software oferece suporte à funcionalidade de cluster de failover.

    • Depois de restaurar um sistema a partir do backup: Depois de restaurar um sistema a partir do backup, execute a validação do cluster para confirmar se o sistema funciona corretamente como parte de um cluster.

Validar rede

A ferramenta Microsoft Validate-DCB foi projetada para validar a configuração DCB (Data Center Bridging) no cluster. Para fazer isso, a ferramenta usa uma configuração esperada como entrada e, em seguida, testa cada servidor no cluster. Esta seção aborda como instalar e executar a ferramenta Validate-DCB, revisar os resultados e resolver erros de rede identificados pela ferramenta.

Nota

A Microsoft recomenda implantar e gerenciar sua configuração com ATC de rede, o que elimina a maioria dos desafios de configuração que a ferramenta Validate-DCB verifica. Para saber mais sobre o ATC de rede, que fornece uma abordagem baseada em intenção para a implantação de rede de host, consulte Simplificar a rede de host com ATC de rede.

Na rede, o acesso remoto direto à memória (RDMA) através de Ethernet convergente (RoCE) requer tecnologias DCB para tornar a malha de rede sem perdas. Com o iWARP, o DCB é opcional. No entanto, a configuração do DCB pode ser complexa, com configuração exata necessária:

  • Cada servidor no cluster
  • Cada porta de rede pela qual o tráfego RDMA passa na malha

Pré-requisitos

  • Informações de configuração de rede do cluster de servidor que você deseja validar, incluindo:
    • Nome do host ou cluster de servidor
    • Nome do comutador virtual
    • Nomes de adaptadores de rede
    • Configurações de controle de fluxo prioritário (PFC) e seleção aprimorada de transmissão (ETS)
  • Uma conexão com a Internet para baixar o módulo de ferramenta no Windows PowerShell da Microsoft.

Instalar e executar a ferramenta Validate-DCB

Para instalar e executar a ferramenta Validate-DCB:

  1. No computador de gerenciamento, abra uma sessão do Windows PowerShell como administrador e use o seguinte comando para instalar a ferramenta.

    Install-Module Validate-DCB
    
  2. Aceite as solicitações para usar o provedor NuGet e acesse o repositório para instalar a ferramenta.

  3. Depois que o PowerShell se conectar à rede da Microsoft para baixar a ferramenta, digite Validate-DCB e pressione Enter para iniciar o assistente da ferramenta.

    Nota

    Se não for possível executar o script da ferramenta Validate-DCB, talvez seja necessário ajustar as políticas de execução do PowerShell. Use o cmdlet Get-ExecutionPolicy para exibir suas configurações atuais de política de execução de script. Para obter informações sobre como definir políticas de execução no PowerShell, consulte Sobre políticas de execução.

  4. Na página Bem-vindo ao assistente de configuração Validate-DCB, selecione Avançar.

  5. Na página Clusters e Nós, digite o nome do cluster de servidor que você deseja validar, selecione Resolver para listá-lo na página e selecione Avançar.

    A página Clusters e Nós do assistente de configuração Validate-DCB

  6. Na página Adaptadores:

    1. Marque a caixa de seleção vSwitch anexado e digite o nome do vSwitch.
    2. Em Nome do adaptador, digite o nome de cada NIC física, em Nome da vNIC do host, o nome de cada NIC virtual (vNIC) e, em VLAN, a ID da VLAN em uso para cada adaptador.
    3. Expanda a caixa de listagem suspensa Tipo de RDMA e selecione o protocolo apropriado: RoCE ou iWARP. Defina também Jumbo Frames com o valor apropriado para a sua rede e, em seguida, selecione Seguinte.

    A página Adaptadores do assistente de configuração Validate-DCB

    Nota

  7. Na página Data Center Bridging, modifique os valores para corresponder às configurações da sua organização para Prioridade, Nome da Política e Reserva de Largura de Banda e selecione Avançar.

    A página Data Center Bridging do assistente de configuração Validate-DCB

    Nota

    Selecionar RDMA sobre RoCE na página anterior do assistente requer DCB para confiabilidade de rede em todas as NICs e switchports.

  8. Na página Salvar e Implantar, na caixa Caminho do Arquivo de Configuração , salve o arquivo de configuração usando a extensão .ps1 em um local onde possa usá-lo novamente mais tarde, se necessário, e selecione Exportar para começar a executar a ferramenta Validate-DCB.

    • Opcionalmente, você pode implantar seu arquivo de configuração preenchendo a seção Implantar Configuração em Nós da página, que inclui a capacidade de usar uma conta de Automação do Azure para implantar a configuração e, em seguida, validá-la. Consulte Criar uma conta de Automação do Azure para começar a usar a Automação do Azure.

    A página Salvar e Implantar do assistente de configuração Validate-DCB

Rever os resultados e corrigir erros

A ferramenta Validate-DCB produz resultados em duas unidades:

  1. Os resultados da [Unidade Global] listam os pré-requisitos e requisitos para executar os testes modais.
  2. Os resultados da [Unidade Modal] fornecem feedback sobre cada configuração de host de cluster e práticas recomendadas.

Este exemplo mostra os resultados da verificação bem-sucedida de um único servidor para todos os pré-requisitos e testes de unidade modal indicando uma Contagem de Falha de 0.

Validar os resultados dos testes da unidade global e da unidade modal do DCB-DCB

As etapas a seguir mostram como identificar um erro Jumbo Packet do vNIC SMB02 e corrigi-lo:

  1. Os resultados das verificações da ferramenta Validate-DCB mostram um erro de Contagem de Falha de 1.

    Resultados da verificação da ferramenta Validate-DCB mostrando um erro de Contagem de Falha de 1

  2. Rolar de volta pelos resultados mostra um erro em vermelho indicando que o Jumbo Packet para vNIC SMB02 no Host S046036 está definido no tamanho padrão de 1514, mas deve ser definido como 9014.

    Resultado da verificação da ferramenta Validate-DCB mostrando um erro de configuração de tamanho de pacote jumbo

  3. A revisão das propriedades avançadas do vNIC SMB02 no Host S046036 mostra que o Jumbo Packet está definido como o padrão de Disabled.

    As propriedades avançadas do Hyper-V do host do servidor Configuração Jumbo Packet

  4. Para corrigir o erro, é necessário ativar o recurso Jumbo Packet e alterar seu tamanho para 9014 bytes. Executar a verificação novamente no host S046036 confirma essa alteração retornando uma Contagem com Falha de 0.

    Validate-DCB resultados da verificação confirmando que a configuração Jumbo Packet do host do servidor está corrigida

Para saber mais sobre como resolver erros identificados pela ferramenta Validate-DCB, veja o vídeo a seguir.

Você também pode instalar a ferramenta offline. Para sistemas desconectados, use Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB e mova os módulos em c:\temp\Validate-DCB para o sistema desconectado. Para obter mais informações, consulte o vídeo a seguir.

Validar o cluster

Use as etapas a seguir para validar os servidores em um cluster existente no Windows Admin Center.

  1. No Windows Admin Center, em Todas as conexões, selecione o cluster HCI do Azure Stack que você deseja validar e selecione Conectar.

    O Painel do Gerenciador de Cluster exibe informações gerais sobre o cluster.

  2. No Painel do Gerenciador de Clusters, em Ferramentas, selecione Servidores.

  3. Na página Inventário, selecione os servidores no cluster, expanda o submenu Mais e selecione Validar cluster.

  4. Na janela pop-up Validar Cluster, selecione Sim.

    Janela pop-up Validar cluster

  5. Na janela pop-up CredSSP (Credential Security Service Provider), selecione Sim.

  6. Forneça suas credenciais para habilitar o CredSSP e selecione Continuar.
    A validação de cluster é executada em segundo plano e fornece uma notificação quando estiver concluída, momento em que você poderá exibir o relatório de validação, conforme descrito na próxima seção.

Nota

Depois que os servidores de cluster tiverem sido validados, você precisará desabilitar o CredSSP por motivos de segurança.

Desativar CredSSP

Depois que o cluster de servidores for validado com êxito, você precisará desabilitar o protocolo CredSSP (Credential Security Support Provider) em cada servidor para fins de segurança. Para obter mais informações, consulte CVE-2018-0886.

  1. No Windows Admin Center, em Todas as ligações, selecione o primeiro servidor do cluster e, em seguida, selecione Ligar.

  2. Na página Visão geral, selecione Desativar CredSSP e, na janela pop-up Desabilitar CredSSP, selecione Sim.

    O resultado da Etapa 2 remove o banner vermelho CredSSP ENABLED na parte superior da página Visão geral do servidor e desativa o CredSSP nos outros servidores.

Ver relatórios de validação

Agora você está pronto para exibir seu relatório de validação de cluster.

Há algumas maneiras de acessar relatórios de validação:

  • Na página Inventário, expanda o submenu Mais e selecione Exibir relatórios de validação.

  • No canto superior direito do Windows Admin Center, selecione o ícone de sino de notificações para exibir o painel Notificações. Selecione o aviso Cluster validado com êxito e, em seguida, selecione Ir para o relatório de validação do Cluster de Failover.

Nota

O processo de validação do cluster de servidor pode levar algum tempo para ser concluído. Não mude para outra ferramenta no Windows Admin Center enquanto o processo estiver em execução. No painel Notificações, uma barra de status abaixo do aviso Validar cluster indica quando o processo é concluído.

Validar o cluster usando o PowerShell

Você também pode usar o Windows PowerShell para executar testes de validação em seu cluster de servidor e exibir os resultados. Você pode executar testes antes e depois da configuração de um cluster.

Para executar um teste de validação em um cluster de servidor, emita os cmdlets Get-Cluster e <server clustername> PowerShell do seu computador de gerenciamento ou execute somente o cmdlet Test-Cluster diretamente no cluster:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Para obter mais exemplos e informações de uso, consulte a documentação de referência do Test-Cluster .

O Test-NetStack é uma ferramenta de teste baseada em PowerShell disponível no GitHub que você pode usar para executar testes de tráfego ICMP, TCP e RDMA de redes e identificar possíveis malconfigurações de malha de rede e host ou instabilidade operacional. Use Test-NetStack para validar caminhos de dados de rede testando caminhos de dados de rede nativos, sintéticos e descarregados de hardware (RDMA) para problemas com conectividade, fragmentação de pacotes, baixa taxa de transferência e congestionamento.

Validar replicação para réplica de armazenamento

Se você estiver usando a Réplica de Armazenamento para replicar volumes em um cluster estendido ou cluster para cluster, há vários eventos e cmdlets que você pode usar para obter o estado da replicação.

No cenário a seguir, configuramos a Réplica de Armazenamento criando grupos de replicação (RGs) para dois sites e, em seguida, especificamos os volumes de dados e volumes de log para os nós do servidor de origem no Site1 (Servidor1, Servidor2) e os nós do servidor de destino (replicados) no Site2 (Servidor3, Servidor4).

Para determinar o progresso da replicação para Server1 no Site1, execute o comando Get-WinEvent e examine os eventos 5015, 5002, 5004, 1237, 5001 e 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Para Server3 no Site2, execute o seguinte Get-WinEvent comando para ver os eventos da Réplica de Armazenamento que mostram a criação da parceria. Este evento indica o número de bytes copiados e o tempo decorrido. Por exemplo:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Para Server3 no Site2, execute o comando e examine os Get-WinEvent eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso do processamento. Não deverá ser apresentado nenhum aviso de erro nesta sequência. Haverá muitos eventos 1237 - estes indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como alternativa, o grupo de servidores de destino da réplica indica o número de bytes restantes para copiar o tempo todo e pode ser consultado por meio do PowerShell com Get-SRGroup. Por exemplo:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Para o nó Server3 no Site2, execute o seguinte comando e examine os eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso da replicação. Não deve haver avisos de erros. No entanto, haverá muitos eventos "1237" - estes simplesmente indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como um script de progresso que não será encerrado:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Para obter o estado de replicação dentro do cluster estendido, use Get-SRGroup e Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Depois que a replicação de dados bem-sucedida for confirmada entre sites, você poderá criar suas VMs e outras cargas de trabalho.

Consulte também