Reparar um nó no Azure Local, versão 23H2
Aplica-se a: Azure Local, versão 23H2
Este artigo descreve como reparar um nó em sua instância local do Azure. Neste artigo, cada servidor é chamado de nó.
Sobre nós de reparo
O Azure Local é um sistema hiperconvergente que permite reparar nós de sistemas existentes. Talvez seja necessário reparar um nó em um sistema se houver uma falha de hardware.
Antes de reparar um nó, verifique com seu provedor de soluções, quais componentes no nó são unidades de substituição de campo (FRUs) que você mesmo pode substituir e quais componentes exigiriam um técnico para substituir.
As peças que suportam hot swap normalmente não exigem que você recrie a imagem do nó, ao contrário dos componentes não hot-swap, como a placa-mãe. Consulte o fabricante do hardware para determinar quais substituições de componentes exigiriam que você recriasse o nó. Para obter mais informações, consulte Substituição de componentes.
Fluxo de trabalho do nó de reparo
O diagrama de fluxo a seguir mostra o processo geral para reparar um nó.
*O nó pode não estar em um estado em que o desligamento seja possível ou necessário*
Para reparar um nó existente, siga estas etapas de alto nível:
Se possível, desligue o nó que você deseja reparar. Dependendo do estado do nó, um desligamento pode não ser possível ou necessário.
Recrie a imagem do nó que precisa ser reparado.
Execute a operação do nó de reparo. O sistema operacional, os drivers e o firmware do Azure Stack HCI são atualizados como parte da operação de reparo.
O armazenamento é rebalanceado automaticamente no nó recriado. O rebalanceamento de armazenamento é uma tarefa de baixa prioridade que pode ser executada por vários dias, dependendo do número de nós e do armazenamento usado.
Cenários com suporte
Reparar um nó recria a imagem de um nó e o traz de volta ao sistema com o nome e a configuração anteriores.
Reparar um único nó resulta em uma reimplantação com a opção de persistir os volumes de dados. Somente o volume do sistema é excluído e provisionado novamente durante a implantação.
Importante
Certifique-se de sempre ter backups para suas cargas de trabalho e não dependa apenas da resiliência do sistema. Isso é especialmente crítico em cenários de nó único.
Configurações de resiliência
Nesta versão, para uma operação de nó de reparo, tarefas específicas não são executadas nos volumes de carga de trabalho que você criou após a implementação. Para uma operação de nó de reparo, apenas os volumes de infraestrutura necessários e os volumes de carga de trabalho são restaurados e exibidos como volumes compartilhados de cluster (CSVs).
Os outros volumes de carga de trabalho que você criou após a implantação ainda são retidos e você pode descobrir esses volumes executando o Get-VirtualDisk
cmdlet. Você precisará desbloquear manualmente o volume (se o volume tiver o BitLocker habilitado) e criar um CSV (se necessário).
Requisitos de hardware
Ao reparar um nó, o sistema valida o hardware do novo nó de entrada e garante que o nó atenda aos requisitos de hardware antes de ser adicionado ao sistema.
Componente | Verificação de conformidade |
---|---|
CPU | Valide se o novo nó tem o mesmo número ou mais núcleos de CPU. Se os núcleos da CPU no nó de entrada não atenderem a esse requisito, um aviso será apresentado. No entanto, a operação é permitida. |
Memória | Valide se o novo nó tem a mesma quantidade ou mais de memória instalada. Se a memória no nó de entrada não atender a esse requisito, um aviso será apresentado. No entanto, a operação é permitida. |
Unidades | Valide se o novo nó tem o mesmo número de unidades de dados disponíveis para Espaços de Armazenamento Diretos. Se o número de unidades no nó de entrada não atender a esse requisito, um erro será relatado e a operação será bloqueada. |
Substituição de nó
Você pode substituir todo o nó:
- Com um novo nó que tem um número de série diferente em comparação com o nó antigo.
- Com o nó atual depois de reimaginá-lo.
Os seguintes cenários são suportados durante a substituição do nó:
Nó | Disco | Com suporte |
---|---|---|
Novo nó | Novos discos | Sim |
Novo nó | Discos atuais | Sim |
Nó atual (recriado) | Discos atuais reformatados ** | Não |
Nó atual (recriado) | Novos discos | Sim |
Nó atual (recriado) | Discos atuais | Sim |
**Os discos que foram usados por Espaços de Armazenamento Diretos exigem limpeza adequada. A reformatação não é suficiente. Veja como limpar unidades.
Importante
Se você substituir um componente durante o reparo do nó, não será necessário substituir ou redefinir as unidades de dados. Se você substituir uma unidade ou redefini-la, a unidade não será reconhecida quando o nó ingressar no sistema.
Substituição de componentes
Em sua instância local do Azure, os componentes não hot-swap incluem os seguintes itens:
- Placa-mãe/BMC (controlador BMC de gerenciamento da placa base)/placa de vídeo
- Controlador de disco/adaptador de barramento de host (HBA)/backplace
- Adaptador de rede
- Unidade de processamento gráfico
- Unidades de dados (unidades que não suportam o intercâmbio, por exemplo, placas de suplemento PCI-e)
As etapas de substituição reais para componentes não hot-swap variam de acordo com o fornecedor de hardware do fabricante do equipamento original (OEM). Consulte a documentação do fornecedor OEM se for necessário um reparo de nó para componentes não hot-swap.
Pré-requisitos
Antes de reparar um nó, você deve garantir que:
AzureStackLCMUser
está ativo no Active Directory. Para obter mais informações, consulte Preparar o Active Directory.- Conectado como
AzureStackLCMUser
ou outro usuário com permissões equivalentes. - As credenciais para o
AzureStackLCMUser
não mudaram.
Se necessário, coloque o nó que você identificou para reparo offline. Siga as etapas em aqui:
Reparar um nó
Esta seção descreve como reparar um nó usando o Repair-Server
PowerShell, monitorar o status da operação e solucionar problemas, se houver algum problema.
Certifique-se de ter revisado os pré-requisitos.
Siga estas etapas no nó que você está tentando reparar.
Instale o sistema operacional e os drivers necessários. Siga as etapas em Instalar o sistema operacional Azure Stack HCI, versão 23H2.
Observação
Se você implantou sua instância local do Azure usando IPs de armazenamento personalizados, deverá atribuir IPs manualmente aos adaptadores de rede de armazenamento depois que o nó for reparado.
Registre o nó com o Arc. Siga as etapas em Registrar-se no Arc e configurar permissões.
Observação
Você deve usar os mesmos parâmetros que os nós existentes para se registrar no Arc. Por exemplo: nome do Grupo de Recursos, Região, Assinatura e Locatário.
Atribua as seguintes permissões ao nó reparado:
- Função de Gerenciamento de Dispositivo Local do Azure
- Usuário de segredos do Key Vault Para obter mais informações, consulte Atribuir permissões ao nó.
Siga estas etapas em outro nó que seja membro da mesma instância local do Azure.
Antes de adicionar o nó, certifique-se de obter um token de autenticação atualizado. Execute o comando a seguir:
Update-AuthenticationToken
Se você estiver executando uma versão anterior à 2405.3, deverá executar o seguinte comando para limpar arquivos conflitantes:
Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force
Entre no nó que já é membro do sistema, com as credenciais de usuário de domínio que você forneceu durante a implantação do sistema. Execute o seguinte comando para reparar o nó de entrada:
$Cred = Get-Credential Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
Anote a ID da operação como saída pelo
Repair-Server
comando. Você usa isso posteriormente para monitorar o progresso daRepair-Server
operação.
Monitore o progresso da operação
Para monitorar o progresso da operação de adição de nó, siga estas etapas:
Execute o cmdlet a seguir e forneça a ID da operação da etapa anterior.
$ID = "<Operation ID>" Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID
Após a conclusão da operação, o trabalho de rebalanceamento de armazenamento em segundo plano continuará a ser executado. Aguarde a conclusão do trabalho de rebalanceamento de armazenamento. Para verificar o progresso desse trabalho de rebalanceamento de armazenamento, use o seguinte cmdlet:
Get-VirtualDisk|Get-StorageJob
Se o trabalho de rebalanceamento de armazenamento for concluído, o cmdlet não retornará uma saída.
Cenários de recuperação
Os seguintes cenários de recuperação e as etapas de mitigação recomendadas são tabulados para reparar um nó:
Descrição do cenário | Mitigação | Com suporte? |
---|---|---|
Falha na operação do nó de reparo. | Para concluir a operação, investigue a falha. Execute novamente a operação com falha usando Add-Server -Rerun . |
Sim |
A operação do nó de reparo foi parcialmente bem-sucedida, mas teve que começar com uma nova instalação do sistema operacional. | Nesse cenário, o orquestrador (também conhecido como Lifecycle Manager) já atualizou seu armazenamento de conhecimento com o novo nó. Use o cenário de nó de reparo. | Sim |
Solução de problemas
Se você tiver falhas ou erros ao reparar um nó, poderá capturar a saída das falhas em um arquivo de log.
Entre com as credenciais de usuário do domínio que você forneceu durante a implantação do sistema. Capture o problema nos arquivos de log.
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
Para executar novamente a operação com falha, use o seguinte cmdlet:
Repair-Server -Rerun
Próximas etapas
Saiba mais sobre como Adicionar um nó.