Delen via


Problemen met BMM-inrichting in een Azure Operator Nexus-cluster oplossen

Als onderdeel van een implementatieactie voor een cluster worden bare-metalmachines (BMM's) ingericht met rollen die vereist zijn om deel te nemen aan het cluster. Dit document biedt ondersteuning voor het oplossen van veelvoorkomende inrichtingsproblemen met behulp van de Azure CLI, Azure Portal en de server baseboard-beheercontroller (BMC). Voor het Azure Operator Nexus-platform maakt de onderliggende serverhardware gebruik van geïntegreerde Dell remote access controller (iDRAC) als de BMC. Inrichten maakt gebruik van de PXE-interface (Preboot eXecution Environment) om het besturingssysteem (OS) op de BMM te laden.

Vereisten

  1. Installeer de nieuwste versie van de juiste CLI-extensies.
  2. Verzamel de volgende informatie:
    • Abonnements-id (SUBSCRIPTION)
    • Clusternaam (CLUSTER)
    • Resourcegroep (CLUSTER_RG)
    • Beheerde resourcegroep (CLUSTER_MRG)
  3. Vraag toegang tot het abonnement om de Azure Operator Nexus network fabric (NF) en netwerk-CLI-extensieopdrachten uit te voeren.
  4. Meld u aan bij de Azure CLI en selecteer het abonnement waarin het cluster is geïmplementeerd.

BMM-rollen

Voor een specifieke versie zijn rollen vereist om het onderliggende Kubernetes-cluster te beheren en te gebruiken.

De volgende rollen worden toegewezen aan BMM-resources (zie de referentie voor BMM-rollen):

  • Besturingsvlak: de BMM die verantwoordelijk is voor het uitvoeren van de Kubernetes-besturingsvlakagents voor het cluster.
  • Beheervlak: De BMM die verantwoordelijk is voor het uitvoeren van de platformagenten, inclusief controllers en extensies.
  • Rekenvlak: de BMM die verantwoordelijk is voor het uitvoeren van werkelijke tenantworkloads, waaronder Kubernetes-clusters en virtuele machines.

De BMM-status weergeven

Met de volgende opdracht worden alle bareMetalMachineName resources in de beheerde resourcegroep met een eenvoudige status weergegeven:

az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table

Name          ResourceGroup                  DetailedStatus    DetailedStatusMessage
------------  -----------------------------  ----------------  ---------------------------------------
BMM_NAME      CLUSTER_MRG                    STATUS            STATUS_MSG

Het STATUS proces doorloopt de fasen die zijn gedefinieerd in de volgende tabel in het BMM-inrichtingsproces (zie BMM-status in Azure Operator Nexus-rekenconcepten):

Fase Acties
Registering Controleert de BMC-connectiviteit/BMC-referenties en voegt de BMM toe aan de inrichtingsservice.
Preparing Start de BMM opnieuw op, stelt de BMC opnieuw in en controleert de energiestatus.
Inspecting Werkt firmware bij, past BIOS-instellingen toe en configureert opslag.
Available Geeft aan dat de BMM gereed is om het besturingssysteem te installeren.
Provisioning Geeft aan dat de installatiekopieën van het besturingssysteem op de BMM worden geïnstalleerd. Nadat het besturingssysteem is geïnstalleerd, probeert de BMM lid te worden van het cluster.
Provisioned Geeft aan dat de BMM is ingericht en is toegevoegd aan het cluster.
Deprovisioning Geeft aan dat BMM-inrichting is mislukt. Met de inrichtingsservice wordt de resource opgeschoond om het opnieuw te proberen.
Failed Geeft aan dat BMM-inrichting is mislukt en handmatig herstel is vereist. Alle nieuwe pogingen zijn uitgeput.

Tijdens elke fase wordt de gedetailleerde BMM-status ingesteld op Failed. De fase wordt geblokkeerd als een van de volgende onderbrekingen optreedt:

  • De BMC is niet beschikbaar.
  • Een netwerkpoort is offline.
  • Een hardwareonderdeel mislukt.

Ga als volgende te werk om een gedetailleerdere status van de BMM te krijgen:

az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table

Name            ReadyState    ProvisioningState    DetailedStatus    DetailedStatusMessage                      PowerState    MachineRoles                                      CreatedAt
------------    ----------    -----------------    --------------    -----------------------------------------  ----------    ------------------------------------------------  -----------
BMM_NAME        RSTATE        PROV_STATE           STATUS            STATUS_MSG                                 POWER_STATE   BMM_ROLE                                          CREATE_DATE

In de volgende tabel ziet u waar de uitvoer is gedefinieerd.

Uitvoer Definitie
BMM_NAME BMM-naam.
RSTATE Status van clusterdeelname (True,False).
PROV_STATE Inrichtingsstatus (Succeeded,Failed).
STATUS Gedetailleerde status inrichten (,,,,,,Provisioned,).FailedDeprovisioning).ProvisioningAvailableInspectingPreparingRegistering
STATUS_MSG Gedetailleerd bericht over inrichtingsstatus.
POWER_STATE Energiestatus van BMM (On,Off).
BMM_ROLE BMM-clusterrol (control-plane,management-plane,compute-plane).
CREATE_DATE BMM-aanmaakdatum.

Voorbeeld:

x01dev01c01w01  True          Succeeded            Provisioned       The OS is provisioned to the machine       On            platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z
x01dev01c01w01  False         Failed               Preparing         Preparing for provisioning of the machine  Off           platform.afo-nc.microsoft.com/compute-plane=true  2024-05-03T15:12:48.0934793Z

BMM-details

Details en de status van één BMM weergeven:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME

Voor BMM-details die specifiek zijn voor het oplossen van problemen:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Problemen met mislukte inrichtingsstatussen oplossen

De volgende voorwaarden kunnen leiden tot inrichtingsfouten.

Fouttype Oplossing
BMC geeft kritieke fout weer Backplane Comm . 1. Voer BMM externe vlooienafvoer uit.
2. Voer de fysieke vlooienafvoer van BMM uit.
3. Voer de BMM-actie replace uit.
Het netwerkgegevensantwoord (PXE) opstarten is leeg vanuit BMC. 1. Stel de poort opnieuw in op het fabric-apparaat.
2. Voer BMM externe vlooienafvoer uit.
3. Voer de fysieke vlooienafvoer van BMM uit.
4. Voer de BMM-actie replace uit.
Het MAC-adres van HET OPSTARTEN (PXE) komt niet overeen. 1. Valideer BMM MAC-adresgegevens op basis van BMC-gegevens.
2. Voer BMM externe vlooienafvoer uit.
3. Voer de fysieke vlooienafvoer van BMM uit.
4. Voer de BMM-actie replace uit.
BMC MAC-adres komt niet overeen. 1. Valideer BMM MAC-adresgegevens op basis van BMC-gegevens.
2. Voer BMM externe vlooienafvoer uit.
3. Voer de fysieke vlooienafvoer van BMM uit.
4. Voer de BMM-actie replace uit.
Antwoord van schijfgegevens leeg van BMC. 1. Schijf verwijderen of vervangen.
2. Verwijder of vervang de opslagcontroller.
3. Voer BMM externe vlooienafvoer uit.
4. Voer de fysieke vloafvoer van BMM uit.
5. Voer de BMM-actie replace uit.
BMC is niet bereikbaar. 1. Stel de poort opnieuw in op het fabric-apparaat.
2. Verwijder of vervang de kabel.
3. Voer BMM externe vlooienafvoer uit.
4. Voer de fysieke vloafvoer van BMM uit.
5. Voer de BMM-actie replace uit.
Aanmelden bij BMC mislukt. 1. Werk referenties bij op BMC.
2. Voer de BMM-actie replace uit.
Geheugen, CPU, OEM-kritieke fouten op BMC. 1. Los het hardwareprobleem op met verwijderen of vervangen.
2. Voer BMM externe vlooienafvoer uit.
3. Voer de fysieke vlooienafvoer van BMM uit.
4. Voer de BMM-actie replace uit.
Console blijft hangen bij het opstartlaadprogramma (GRUB) menu. 1. Voer NVRAM reset uit.
2. Voer de BMM-actie replace uit.

Azure BMM-activiteitenlogboek

  1. Meld u aan bij het Azure-portaal.
  2. Zoek op de BMM-naam in het bovenste zoekvak .
  3. Selecteer de naam van de Bare Metal Machine (Operator Nexus) in de zoekresultaten.
  4. Selecteer activiteitenlogboek in het servicemenu.
  5. Zorg ervoor dat de tijdsperiode de inrichtingsperiode omvat.
  6. Vouw de BareMetalMachines_Update bewerking uit en selecteer alle BMM's die een Failed status weergeven.
  7. Selecteer het JSON-tabblad om het gedetailleerde statusbericht op te halen.

Zoek naar fouten met betrekking tot ongeldige referenties of als de BMC niet beschikbaar is.

Het BMC IPv4-adres bepalen

Het IPv4-adres van de BMC (BMC_IP) bevindt zich in de Connect waarde die wordt geretourneerd uit de vorige sectie 'BMM-details'.

Het MAC-adres van de BMM valideren op basis van BMC-gegevens

De MAC-adresgegevens ophalen uit de BMM:

az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table

Controleer de MAC-adresgegevens op basis van de BMC via de webgebruikersinterface:

  • BMC>Dashboard: Toont het BMC MAC-adres.
  • BMC>System Info>Network>Embedded.1-1-1: Geeft het MAC-adres voor opstarten weer.

Controleer of het MAC-adres wordt gebruikt racadm vanuit een jumpbox die toegang heeft tot het BMC-netwerk:

racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address "        #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1"  #Boot MAC

Als het MAC-adres dat aan het cluster is opgegeven onjuist is, gebruikt u de BMM-actie replace bij BMM-acties om de adressen te corrigeren.

Ping test BMC-connectiviteit

Probeer de ping opdracht uit te voeren op het BMC IPv4-adres:

  1. Haal het IPv4-adres (BMC_IP) op uit de vorige sectie 'Het BMC IPv4-adres bepalen'.

  2. Test ping naar de BMC:

    Testen vanuit een jumpbox die toegang heeft tot het BMC-netwerk:

    ping $BMC_IP -c 3
    

    Als u wilt testen vanaf een BMM-besturingsvlakhost met behulp van de Azure CLI:

    az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
    

De poort op een fabric-apparaat opnieuw instellen

Als BMC_IP dit niet reageert, wordt de automatische overdracht van de poort van het fabric-apparaat opnieuw ingesteld op de poort en wordt deze mogelijk weer online gebracht.

Ga als volgende te werk om de Network Fabric poort te vinden vanuit Azure:

  1. Haal de RackID en RackSlot waarden op uit de vorige sectie 'BMM-details'.

  2. Zoom in Azure Portal in op de netwerkrek-id voor de BMM.

  3. Selecteer het tabblad Netwerkapparaten en selecteer vervolgens de beheerswitch (Mgmt) voor het rek.

  4. Selecteer onder Resources de optie Netwerkinterfaces. Selecteer vervolgens de BMC-interface (iDRAC) of de PXE-interface (Boot) voor de poort waarvoor opnieuw moet worden ingesteld.

    Verzamel de volgende informatie:

    • Netwerkinfrastructuurresourcegroep (NF_RG)
    • Apparaatnaam (NF_DEVICE_NAME)
    • Interfacenaam (NF_DEVICE_INTERFACE_NAME)
  5. De poort opnieuw instellen:

    Ga als volgende te werk om de poort opnieuw in te stellen met behulp van de Azure CLI:

    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable
    az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
    

BMM externe stroomafvoer (vlooienafvoer)

Om een externe vlooienafvoer uit te voeren tegen de BMM via de BMC UI:

  1. Selecteer BIOS-instellingen voor BMC-configuratie>>>diverse instellingen.

  2. Selecteer onder Power Cycle-aanvraag de optie Volledige energiecyclus. Selecteer Vervolgens Toepassen en opnieuw opstarten.

Voer een externe vlooienafvoer uit met behulp van racadm een jumpbox die toegang heeft tot het BMC-netwerk:

racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle

BMM fysieke stroomafvoer (vlooienafvoer)

Voor een fysieke vlooienafvoer koppelt de lokale site de stroomkabels gedurende vijf minuten fysiek los van beide voedingsadapters en herstelt ze vervolgens stroom. Dit proces zorgt ervoor dat de server, condensatoren en alle onderdelen volledige stroomverwijdering hebben en dat alle gegevens in de cache worden gewist.

NVRAM opnieuw instellen

Als het inrichten is mislukt vanwege een OEM- of hardwarefout, is de opstartvolgorde mogelijk vergrendeld in NVRAM om in plaats van hdd eerst in de opstartvolgorde weer te PXE boot geven of hard drive te vermelden.

Deze voorwaarde toont doorgaans de BMM in de bootloader-fase op de console en wordt geblokkeerd zonder handmatige toetsaanslag.

Als u de NVRAM opnieuw wilt instellen, gebruikt u de volgende volgorde in de BMC-gebruikersinterface:

  1. Selecteer Diagnostische gegevens>voor onderhoud>opnieuw instellen van iDrac naar fabrieksinstellingen.

  2. Selecteer Alle instellingen negeren, maar behoud de gebruikers- en netwerkinstellingen en selecteer Vervolgens Toepassen en opnieuw opstarten.

Het BMC-wachtwoord opnieuw instellen

Als in het activiteitenlogboek ongeldige referenties op de BMC worden aangegeven, voert u de volgende opdracht uit vanuit een jumpbox die toegang heeft tot het BMC-netwerk:

racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD  set iDRAC.Users.2.Password $BMC_PWD

Servers weer toevoegen aan het cluster na een reparatie

Nadat de hardware is opgelost, voert u de BMM-actie replace uit door de instructies te volgen in De levenscyclus van bare-metalmachines beheren.