Compartilhar via


Validar um cluster do Azure Stack HCI

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019.

Importante

O Azure Stack HCI agora faz parte do Azure Local. A renomeação da documentação do produto está em andamento. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo, 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Saiba mais.

Aviso

As instruções de implantação fornecidas neste artigo se aplicam a uma versão mais antiga, Azure Stack HCI, versão 22H2. Para novas implantações, recomendamos que você use a versão mais recente disponível para o público geral, Azure Stack HCI, versão 23H2. Para obter instruções de implantação, consulte Sobre a implantação do Azure Stack HCI, versão 23H2.

Validar DCB não é mais a ferramenta recomendada para definir ou testar sua configuração de rede de host no Azure Stack HCI. É recomendável usar a ATC de Rede para configurar a configuração de rede do host para o Azure Stack HCI. A ATC de Rede sempre substitui Validar DCB no Azure Stack HCI.

Embora o assistente Criar cluster no Windows Admin Center execute determinadas validações para criar um cluster de trabalho com o hardware selecionado, a validação de cluster executa verificações adicionais para garantir que o cluster funcione em um ambiente de produção. Este artigo de instruções se concentra em por que a validação do cluster é importante e quando executá-la em um cluster do Azure Stack HCI.

Recomendamos executar a validação de cluster para os seguintes cenários primários:

  • Depois de implantar um cluster de servidor, execute a ferramenta Validate-DCB para testar a rede.
  • Depois de atualizar um cluster de servidor, dependendo do cenário, execute as duas opções de validação para solucionar problemas de cluster.
  • Depois de configurar a replicação com a Réplica de Armazenamento, valide se a replicação está ocorrendo normalmente verificando alguns eventos específicos e executando alguns comandos.
  • Depois de criar um cluster de servidores, execute a ferramenta Validate-DCB antes de colocá-lo em produção.

O que é validação de cluster?

A validação de cluster destina-se a detectar problemas de hardware ou configuração antes que um cluster entre em produção. A validação de cluster ajuda a garantir que a solução do Azure Stack HCI que você está prestes a implantar seja realmente confiável. Você também pode usar a validação de cluster em clusters de failover configurados como uma ferramenta de diagnóstico.

Cenários de validação específicos

Esta seção descreve cenários em que a validação também é necessária ou útil.

  • Validação antes da configuração do cluster:

    • Um conjunto de servidores prontos para se tornar um cluster de failover: esse é o cenário de validação mais simples. Os componentes de hardware (sistemas, redes e armazenamento) estão conectados, mas os sistemas ainda não estão funcionando como um cluster. A execução de testes nessa situação não afeta a disponibilidade.

    • VMs de servidor: para servidores virtualizados em um cluster, execute a validação de cluster como faria em qualquer outro novo cluster. O requisito para executar o recurso é o mesmo se você tiver:

      • Um "cluster de host" em que o failover ocorre entre dois computadores físicos.
      • Um "cluster convidado" em que o failover ocorre entre sistemas operacionais convidados no mesmo computador físico.
  • Validação depois que o cluster estiver configurado e em uso:

    • Antes de adicionar um servidor ao cluster: quando você adiciona um servidor a um cluster, é altamente recomendável validar o cluster. Especifique os membros do cluster existentes e o novo servidor ao executar a validação do cluster.

    • Ao adicionar unidades: ao adicionar unidades adicionais ao cluster, o que é diferente de substituir unidades com falha ou criar discos virtuais ou volumes que dependem das unidades existentes, execute a validação do cluster para confirmar se o novo armazenamento funcionará corretamente.

    • Ao fazer alterações que afetam o firmware ou os drivers: se você atualizar ou fizer alterações no cluster que afetem o firmware ou os drivers, deverá executar a validação do cluster para confirmar se a nova combinação de hardware, firmware, drivers e software dá suporte à funcionalidade de cluster de failover.

    • Depois de restaurar um sistema do backup: depois de restaurar um sistema do backup, execute a validação do cluster para confirmar se o sistema funciona corretamente como parte de um cluster.

Validar rede

A ferramenta Microsoft Validate-DCB foi projetada para validar a configuração do Data Center Bridging (DCB) no cluster. Para fazer isso, a ferramenta usa uma configuração esperada como entrada e, em seguida, testa cada servidor no cluster. Esta seção aborda como instalar e executar a ferramenta Validate-DCB, examinar os resultados e resolver erros de rede identificados pela ferramenta.

Observação

A Microsoft recomenda implantar e gerenciar sua configuração com a ATC de Rede, o que elimina a maioria dos desafios de configuração que a ferramenta Validate-DCB verifica. Para saber mais sobre a ATC de Rede, que fornece uma abordagem baseada em intenção para a implantação de rede de host, consulte Simplificar a rede de host com a ATC de Rede.

Na rede, o acesso remoto direto à memória (RDMA) sobre Ethernet convergente (RoCE) requer tecnologias DCB para tornar a malha de rede sem perdas. Com o iWARP, o DCB é opcional. No entanto, a configuração do DCB pode ser complexa, com configuração exata necessária em:

  • Cada servidor no cluster
  • Cada porta de rede pela qual o tráfego RDMA passa na malha

Pré-requisitos

  • Informações de configuração de rede do cluster de servidores que você deseja validar, incluindo:
    • Nome do cluster de host ou servidor
    • Nome do switch virtual
    • Nomes de adaptadores de rede
    • Configurações de controle de fluxo prioritário (PFC) e seleção de transmissão aprimorada (ETS)
  • Uma conexão com a Internet para baixar o módulo de ferramenta no Windows PowerShell da Microsoft.

Instalar e executar a ferramenta Validate-DCB

Para instalar e executar a ferramenta Validate-DCB:

  1. No computador de gerenciamento, abra uma sessão do Windows PowerShell como administrador e use o comando a seguir para instalar a ferramenta.

    Install-Module Validate-DCB
    
  2. Aceite as solicitações para usar o provedor NuGet e acesse o repositório para instalar a ferramenta.

  3. Depois que o PowerShell se conectar à rede da Microsoft para baixar a ferramenta, digite Validate-DCB e pressione Enter para iniciar o assistente de ferramenta.

    Observação

    Se você não puder executar o script da ferramenta Validate-DCB, talvez seja necessário ajustar suas políticas de execução do PowerShell. Use o cmdlet Get-ExecutionPolicy para exibir suas configurações atuais de política de execução de script. Para obter informações sobre como definir políticas de execução no PowerShell, consulte Sobre políticas de execução.

  4. Na página Bem-vindo ao assistente de configuração Validate-DCB, selecione Avançar.

  5. Na página Clusters e Nós, digite o nome do cluster de servidor que você deseja validar, selecione Resolver para listá-lo na página e, em seguida, selecione Avançar.

    A página Clusters e nós do assistente de configuração Validate-DCB

  6. Na página Adaptadores:

    1. Marque a caixa de seleção vSwitch anexada e digite o nome do vSwitch.
    2. Em Nome do Adaptador, digite o nome de cada NIC física, em Nome da vNIC do Host, o nome de cada NIC virtual (vNIC) e, em VLAN, o ID da VLAN em uso para cada adaptador.
    3. Expanda a caixa de listagem suspensa Tipo de RDMA e selecione o protocolo apropriado: RoCE ou iWARP. Defina também Jumbo Frames com o valor apropriado para sua rede e selecione Avançar.

    A página Adaptadores do assistente de configuração Validate-DCB

    Observação

  7. Na página Ponte de Data Center, modifique os valores para corresponder às configurações da sua organização para Prioridade, Nome da Política e Reserva de Largura de Banda e selecione Avançar.

    A página Ponte de Data Center do assistente de configuração Validate-DCB

    Observação

    A seleção de RDMA sobre RoCE na página anterior do assistente requer DCB para confiabilidade de rede em todas as NICs e portas de switch.

  8. Na página Salvar e Implantar, na caixa Caminho do Arquivo de Configuração , salve o arquivo de configuração usando a extensão .ps1 em um local onde você possa usá-lo novamente mais tarde, se necessário, e selecione Exportar para começar a executar a ferramenta Validate-DCB.

    • Opcionalmente, você pode implantar seu arquivo de configuração preenchendo a seção Implantar Configuração em Nós da página, que inclui a capacidade de usar uma conta de Automação do Azure para implantar a configuração e validá-la. Consulte Criar uma conta de Automação do Azure para começar a usar a Automação do Azure.

    A página Salvar e implantar do assistente de configuração Validate-DCB

Revise os resultados e corrija erros

A ferramenta Validate-DCB produz resultados em duas unidades:

  1. Os resultados da [Unidade Global] listam pré-requisitos e requisitos para executar os testes modais.
  2. Os resultados da [Unidade Modal] fornecem feedback sobre a configuração e as práticas recomendadas de cada host de cluster.

Este exemplo mostra os resultados da verificação bem-sucedida de um único servidor para todos os pré-requisitos e testes de unidade modal, indicando uma Contagem de Falha de 0.

Validar-DCB Resultados de teste de unidade global e unidade modal

As etapas a seguir mostram como identificar um erro de pacote jumbo do vNIC SMB02 e corrigi-lo:

  1. Os resultados das verificações da ferramenta Validate-DCB mostram um erro de contagem de falha de 1.

    Resultados da verificação da ferramenta Validate-DCB mostrando um erro de contagem com falha de 1

  2. Rolar para trás pelos resultados mostra um erro em vermelho indicando que o Pacote Jumbo para vNIC SMB02 no Host S046036 está definido no tamanho padrão de 1514, mas deve ser definido como 9014.

    Resultado da verificação da ferramenta Validate-DCB mostrando um erro de configuração de tamanho de pacote jumbo

  3. A revisão das propriedades avançadas do vNIC SMB02 no Host S046036 mostra que o pacote Jumbo está definido como o padrão de Desativado.

    A configuração de Pacote Jumbo das propriedades avançadas do Hyper-V do host do servidor

  4. A correção do erro requer a ativação do recurso Jumbo Packet e a alteração de seu tamanho para 9014 bytes. A execução da verificação novamente no host S046036 confirma essa alteração retornando uma Contagem de Falha de 0.

    Resultados da verificação Validate-DCB confirmando que a configuração de pacote Jumbo do host do servidor foi corrigida

Para saber mais sobre como resolver erros identificados pela ferramenta Validate-DCB, assista ao vídeo a seguir.

Você também pode instalar a ferramenta offline. Para sistemas desconectados, use Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB e mova os módulos em c:\temp\Validate-DCB para o sistema desconectado. Para obter mais informações, assista a este vídeo.

Validar o cluster

Use as etapas a seguir para validar os servidores em um cluster existente no Windows Admin Center.

  1. No Windows Admin Center, em Todas as conexões, selecione o cluster do Azure Stack HCI que você deseja validar e, em seguida, selecione Conectar.

    O Painel do Gerenciador de Cluster exibe informações gerais sobre o cluster.

  2. No Painel do Gerenciador de Cluster, em Ferramentas, selecione Servidores.

  3. Na página Inventário, selecione os servidores no cluster, expanda o submenu Mais e selecione Validar cluster.

  4. Na janela pop-up Validar Cluster , selecione Sim.

    Janela pop-up Validar cluster

  5. Na janela pop-up do Provedor de Serviços de Segurança de Credenciais (CredSSP), selecione Sim.

  6. Forneça suas credenciais para habilitar o CredSSP e selecione Continuar.
    A validação de cluster é executada em segundo plano e fornece uma notificação quando é concluída, momento em que você pode exibir o relatório de validação, conforme descrito na próxima seção.

Observação

Depois que seus servidores de cluster forem validados, você precisará desabilitar o CredSSP por motivos de segurança.

Desabilitar CredSSP

Depois que o cluster de servidores for validado com êxito, você precisará desabilitar o protocolo CredSSP (Provedor de Suporte à Segurança de Credenciais) em cada servidor para fins de segurança. Para obter mais informações, consulte CVE-2018-0886.

  1. No Windows Admin Center, em Todas as conexões, selecione o primeiro servidor no cluster e, em seguida, selecione Conectar.

  2. Na página Visão geral , selecione Desabilitar CredSSP e, na janela pop-up Desabilitar CredSSP , selecione Sim.

    O resultado da Etapa 2 remove o banner vermelho CredSSP ENABLED na parte superior da página Visão geral do servidor e desabilita o CredSSP nos outros servidores.

Exibir relatórios de validação

Agora você está pronto para exibir seu relatório de validação de cluster.

Existem algumas maneiras de acessar relatórios de validação:

  • Na página Inventário, expanda o submenu Mais e selecione Exibir relatórios de validação.

  • No canto superior direito do Windows Admin Center, selecione o ícone de sino de notificações para exibir o painel Notificações. Selecione o aviso Cluster validado com êxito e, em seguida, selecione Ir para o relatório de validação do Cluster de Failover.

Observação

O processo de validação do cluster de servidores pode levar algum tempo para ser concluído. Não alterne para outra ferramenta no Windows Admin Center enquanto o processo estiver em execução. No painel Notificações, uma barra de status abaixo do aviso Validar cluster indica quando o processo é concluído.

Validar o cluster usando o PowerShell

Você também pode usar o Windows PowerShell para executar testes de validação no cluster do servidor e exibir os resultados. Você pode executar testes antes e depois da configuração de um cluster.

Para executar um teste de validação em um cluster de servidor, emita os cmdlets Get-Cluster e Test-Cluster>< cluster do PowerShell do computador de gerenciamento ou execute apenas o cmdlet Test-Cluster diretamente no cluster:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Para obter mais exemplos e informações de uso, consulte a documentação de referência do Test-Cluster .

O Test-NetStack é uma ferramenta de teste baseada no PowerShell disponível no GitHub que você pode usar para executar testes de tráfego ICMP, TCP e RDMA de redes e identificar possíveis configurações incorretas de malha de rede e host ou instabilidade operacional. Use o Test-NetStack para validar caminhos de dados de rede testando caminhos de dados de rede nativos, sintéticos e RDMA (descarregados por hardware) em busca de problemas de conectividade, fragmentação de pacotes, baixa taxa de transferência e congestionamento.

Validar a replicação para a Réplica de Armazenamento

Se você estiver usando a Réplica de Armazenamento para replicar volumes em um cluster estendido ou cluster a cluster, há vários eventos e cmdlets que você pode usar para obter o estado da replicação.

No cenário a seguir, configuramos a Réplica de Armazenamento criando grupos de replicação (RGs) para dois sites e, em seguida, especificamos os volumes de dados e os volumes de log para os nós do servidor de origem no Site1 (Server1, Server2) e os nós do servidor de destino (replicados) no Site2 (Server3, Server4).

Para determinar o progresso da replicação do Servidor1 no Site1, execute o comando Get-WinEvent e examine os eventos 5015, 5002, 5004, 1237, 5001 e 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Para Server3 no Site2, execute o comando a seguir Get-WinEvent para ver os eventos de Réplica de Armazenamento que mostram a criação da parceria. Esse evento indica o número de bytes copiados e o tempo gasto. Por exemplo:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Para Server3 no Site2, execute o comando e examine os Get-WinEvent eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso do processamento. Não deve haver nenhum aviso de erro nessa sequência. Haverá muitos eventos 1237 - estes indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como alternativa, o grupo de servidores de destino da réplica indica o número de bytes restantes a serem copiados o tempo todo e pode ser consultado por meio do PowerShell com Get-SRGroup. Por exemplo:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Para o nó Server3 no Site2, execute o comando a seguir e examine os eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso da replicação. Não deve haver avisos de erros. No entanto, haverá muitos eventos "1237" - estes simplesmente indicam progresso.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como um script de progresso que não será encerrado:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Para obter o estado de replicação dentro do cluster estendido, use Get-SRGroup e Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Depois que a replicação de dados bem-sucedida for confirmada entre sites, você poderá criar suas VMs e outras cargas de trabalho.

Confira também