Condividi tramite


Riparare un nodo su Azure Local

Si applica a: Locale di Azure 2311.2 e versioni successive

Questo articolo descrive come ripristinare un nodo nell'istanza locale di Azure. In questo articolo ogni server viene definito nodo.

Informazioni sui nodi di ripristino

Azure Local è un sistema iperconvergente che consente di ripristinare i nodi dai sistemi esistenti. Potrebbe essere necessario ripristinare un nodo in un sistema in caso di errore hardware.

Prima di ripristinare un nodo, assicurarsi di verificare con il provider di soluzioni quali componenti nel nodo sono unità di sostituzione del campo (FRU) che è possibile sostituire manualmente e quali componenti richiederebbero che un tecnico sostituisca.

Le parti che supportano lo scambio frequente in genere non richiedono la ricreazione dell'immagine del nodo a differenza dei componenti non scambiabili a caldo, ad esempio la scheda madre. Consultare il produttore dell'hardware per determinare quali sostituzioni dei componenti richiederebbero la ricreazione dell'immagine del nodo. Per altre informazioni, vedere Sostituzione dei componenti.

Ripristinare il flusso di lavoro del nodo

Il diagramma di flusso seguente illustra il processo complessivo per ripristinare un nodo.

Diagramma che illustra il processo del nodo di ripristino.

*Il nodo potrebbe non trovarsi in uno stato in cui l'arresto è possibile o necessario*

Per ripristinare un nodo esistente, seguire questa procedura generale:

  1. Se possibile, arrestare il nodo da ripristinare. A seconda dello stato del nodo, un arresto potrebbe non essere possibile o necessario.

  2. Ricreazione dell'immagine del nodo che deve essere ripristinato.

  3. Eseguire l'operazione di ripristino del nodo. Il sistema operativo, i driver e il firmware di Azure Stack HCI vengono aggiornati come parte dell'operazione di ripristino.

    L'archiviazione viene ribilanciata automaticamente nel nodo ricreato. Il ribilanciamento dell'archiviazione è un'attività con priorità bassa che può essere eseguita per più giorni a seconda del numero di nodi e dell'archiviazione usata.

Scenari supportati

Il ripristino di un nodo ricrea l'immagine di un nodo e lo riporta al sistema con il nome e la configurazione precedenti.

Il ripristino di un singolo nodo comporta una ridistribuzione con l'opzione per rendere persistenti i volumi di dati. Solo il volume di sistema viene eliminato e appena sottoposto a provisioning durante la distribuzione.

Importante

Assicurarsi di avere sempre backup per i carichi di lavoro e di non basarsi solo sulla resilienza del sistema. Ciò è particolarmente critico negli scenari a nodo singolo.

Impostazioni di resilienza

In questa versione, per un'operazione di ripristino del nodo, le attività specifiche non vengono eseguite sui volumi del carico di lavoro creati dopo la distribuzione. Per un'operazione di ripristino del nodo, vengono ripristinati e visualizzati solo i volumi di infrastruttura necessari e i volumi del carico di lavoro come volumi condivisi del cluster.

Gli altri volumi del carico di lavoro creati dopo la distribuzione vengono ancora conservati ed è possibile individuare questi volumi eseguendo il Get-VirtualDisk cmdlet . Sarà necessario sbloccare manualmente il volume (se il volume è abilitato per BitLocker) e creare un file CSV (se necessario).

Requisiti hardware

Quando si ripristina un nodo, il sistema convalida l'hardware del nuovo nodo in ingresso e garantisce che il nodo soddisfi i requisiti hardware prima che venga aggiunto al sistema.

Componente Verifica della conformità
CPU Verificare che il nuovo nodo abbia lo stesso numero di o più core CPU. Se i core CPU nel nodo in ingresso non soddisfano questo requisito, viene visualizzato un avviso. L'operazione è tuttavia consentita.
Memoria Verificare che nel nuovo nodo sia installata la stessa quantità di memoria o più. Se la memoria nel nodo in ingresso non soddisfa questo requisito, viene visualizzato un avviso. L'operazione è tuttavia consentita.
Unità Verificare che il nuovo nodo abbia lo stesso numero di unità dati disponibili per Spazi di archiviazione diretta. Se il numero di unità nel nodo in ingresso non soddisfa questo requisito, viene segnalato un errore e l'operazione viene bloccata.

Sostituzione del nodo

È possibile sostituire l'intero nodo:

  • Con un nuovo nodo con un numero di serie diverso rispetto al nodo precedente.
  • Con il nodo corrente dopo averlo ricreato l'immagine.

Durante la sostituzione dei nodi sono supportati gli scenari seguenti:

Node Disco Supportata
Nuovo nodo Nuovi dischi
Nuovo nodo Dischi correnti
Nodo corrente (ricreazione dell'immagine) Dischi correnti riformattati ** No
Nodo corrente (ricreazione dell'immagine) Nuovi dischi
Nodo corrente (ricreazione dell'immagine) Dischi correnti

**I dischi usati da Spazi di archiviazione diretta richiedono una pulizia corretta. La riformattazione non è sufficiente. Vedere come pulire le unità.

Importante

Se si sostituisce un componente durante il ripristino del nodo, non è necessario sostituire o reimpostare le unità dati. Se si sostituisce un'unità o la si reimposta, l'unità non verrà riconosciuta dopo che il nodo viene aggiunto al sistema.

Sostituzione di componenti

Nell'istanza locale di Azure, i componenti non scambiabili a caldo includono gli elementi seguenti:

  • Scheda madre/Controller BMC (Baseboard Management Controller)/Scheda video
  • Controller disco/scheda bus host (HBA)/backplace
  • Scheda di rete
  • Unità di elaborazione grafica
  • Unità dati (unità che non supportano lo swapping a caldo, ad esempio schede di componenti aggiuntivi PCI-e)

I passaggi di sostituzione effettivi per i componenti non sostituibili a caldo variano in base al fornitore hardware oem (Original Equipment Manufacturer). Vedere la documentazione del fornitore OEM se è necessaria una riparazione del nodo per i componenti non scambiabili a caldo.

Prerequisiti

Prima di ripristinare un nodo, è necessario assicurarsi che:

  • AzureStackLCMUser è attivo in Active Directory. Per altre informazioni, vedere Preparare Active Directory.
  • Accesso come AzureStackLCMUser o un altro utente con autorizzazioni equivalenti.
  • Le credenziali per l'oggetto AzureStackLCMUser non sono state modificate.

Ripristinare un nodo

Questa sezione descrive come ripristinare un nodo usando PowerShell, monitorare lo stato dell'operazione Repair-Server e risolvere i problemi in caso di problemi.

Assicurarsi di aver esaminato i prerequisiti.

Seguire questi passaggi nel nodo che si sta tentando di ripristinare.

  1. Accedere al portale di Azure con le autorizzazioni del ruolo di Amministratore di Azure Stack HCI.

    1. Passare al gruppo di risorse usato per distribuire l'istanza locale di Azure. Nel gruppo di risorse identificare la risorsa del computer Azure Arc per il nodo difettoso che si vuole ripristinare.

    2. Nella risorsa del computer Azure Arc passare a Impostazioni > Blocchi. Nel riquadro di destra viene visualizzato un blocco delle risorse.

    3. Selezionare il lucchetto e quindi selezionare l'icona del cestino per eliminarlo.

      Screenshot dell'eliminazione del blocco risorse sul nodo macchina difettoso di Azure Arc.

    4. Nella pagina panoramica della risorsa del computer Azure Arc, nel riquadro destro, selezionare Elimina. Questa azione deve eliminare il nodo del computer difettoso.

      Screenshot dell'eliminazione del nodo del computer Azure Arc difettoso.

  2. Installare il sistema operativo e i driver necessari nel nodo da ripristinare. Seguire la procedura descritta in Installare il sistema operativo Azure Stack HCI versione 23H2.

    Nota

    Se l'istanza locale di Azure è stata distribuita usando indirizzi IP di archiviazione personalizzati, è necessario assegnare manualmente gli indirizzi IP alle schede di rete di archiviazione dopo il ripristino del nodo.

  3. Registrare il nodo con Arc. Seguire la procedura descritta in Registrare con Arc e configurare le autorizzazioni.

    Nota

    Per eseguire la registrazione con Arc, è necessario usare gli stessi parametri dei nodi esistenti. Ad esempio: Nome gruppo di risorse, Area, Sottoscrizione e Tenant.

  4. Assegnare le autorizzazioni seguenti al nodo riparato:

Seguire questi passaggi in un altro nodo membro della stessa istanza locale di Azure.

  1. Se si esegue una versione precedente alla 2405.3, è necessario eseguire il comando seguente per pulire i file in conflitto:

    Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force
    
  2. Accedere al nodo già membro del sistema, con le credenziali utente di dominio fornite durante la distribuzione del sistema. Eseguire il comando seguente per ripristinare il nodo in ingresso:

    $Cred = Get-Credential 
    Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
    

    Nota

    Il nome del nodo deve essere il nome NetBIOS. Il parametro LocalAdminCredential di default è l'account amministratore integrato creato dall'installazione del sistema operativo Windows.

  3. Prendere nota dell'ID operazione come output dal Repair-Server comando . Questa operazione verrà usata in un secondo momento per monitorare lo stato dell'operazione Repair-Server .

Monitorare lo stato dell'operazione

Per monitorare lo stato di avanzamento dell'operazione aggiungi nodo, seguire questa procedura:

  1. Eseguire il cmdlet seguente e specificare l'ID operazione del passaggio precedente.

    $ID = "<Operation ID>" 
    Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID 
    
  2. Al termine dell'operazione, il processo di ribilanciamento dello spazio di archiviazione in background continuerà a essere eseguito. Attendere il completamento del processo di ribilanciamento dell'archiviazione. Per verificare lo stato di avanzamento di questo processo di ribilanciamento dell'archiviazione, usare il cmdlet seguente:

    Get-VirtualDisk|Get-StorageJob
    

    Se il processo di ribilanciamento dell'archiviazione è stato completato, il cmdlet non restituirà un output.

Scenari di ripristino

Gli scenari di ripristino seguenti e i passaggi di mitigazione consigliati vengono tabulati per il ripristino di un nodo:

Descrizione dello scenario Strategia di riduzione del rischio Supportato?
L'operazione di ripristino del nodo non è riuscita. Per completare l'operazione, esaminare l'errore.
Rieseguire l'operazione non riuscita usando Repair-Server -Rerun.
L'operazione di ripristino del nodo ha avuto esito positivo parzialmente, ma ha dovuto iniziare con un'installazione aggiornata del sistema operativo. In questo scenario, l'agente di orchestrazione (noto anche come Lifecycle Manager) ha già aggiornato il proprio archivio conoscenze con il nuovo nodo. Usare lo scenario del nodo di ripristino.

Risoluzione dei problemi

Se si verificano errori o errori durante il ripristino di un nodo, è possibile acquisire l'output degli errori in un file di log.

  • Accedere con le credenziali utente di dominio fornite durante la distribuzione del sistema. Acquisire il problema nei file di log.

    Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
    
  • Per rieseguire l'operazione non riuscita, usare il cmdlet seguente:

    Repair-Server -Rerun
    

Passaggi successivi

Altre informazioni su come aggiungere un nodo.