Problemen met BMM-inrichting in een Azure Operator Nexus-cluster oplossen
Als onderdeel van een implementatieactie voor een cluster worden bare-metalmachines (BMM's) ingericht met rollen die vereist zijn om deel te nemen aan het cluster. Dit document biedt ondersteuning voor het oplossen van veelvoorkomende inrichtingsproblemen met behulp van de Azure CLI, Azure Portal en de server baseboard-beheercontroller (BMC). Voor het Azure Operator Nexus-platform maakt de onderliggende serverhardware gebruik van geïntegreerde Dell remote access controller (iDRAC) als de BMC. Inrichten maakt gebruik van de PXE-interface (Preboot eXecution Environment) om het besturingssysteem (OS) op de BMM te laden.
Vereisten
- Installeer de nieuwste versie van de juiste CLI-extensies.
- Verzamel de volgende informatie:
- Abonnements-id (
SUBSCRIPTION
) - Clusternaam (
CLUSTER
) - Resourcegroep (
CLUSTER_RG
) - Beheerde resourcegroep (
CLUSTER_MRG
)
- Abonnements-id (
- Vraag toegang tot het abonnement om de Azure Operator Nexus network fabric (NF) en netwerk-CLI-extensieopdrachten uit te voeren.
- Meld u aan bij de Azure CLI en selecteer het abonnement waarin het cluster is geïmplementeerd.
BMM-rollen
Voor een specifieke versie zijn rollen vereist om het onderliggende Kubernetes-cluster te beheren en te gebruiken.
De volgende rollen worden toegewezen aan BMM-resources (zie de referentie voor BMM-rollen):
- Besturingsvlak: de BMM die verantwoordelijk is voor het uitvoeren van de Kubernetes-besturingsvlakagents voor het cluster.
- Beheervlak: De BMM die verantwoordelijk is voor het uitvoeren van de platformagenten, inclusief controllers en extensies.
- Rekenvlak: de BMM die verantwoordelijk is voor het uitvoeren van werkelijke tenantworkloads, waaronder Kubernetes-clusters en virtuele machines.
De BMM-status weergeven
Met de volgende opdracht worden alle bareMetalMachineName
resources in de beheerde resourcegroep met een eenvoudige status weergegeven:
az networkcloud baremetalmachine list -g $CLUSTER_MRG -o table
Name ResourceGroup DetailedStatus DetailedStatusMessage
------------ ----------------------------- ---------------- ---------------------------------------
BMM_NAME CLUSTER_MRG STATUS STATUS_MSG
Het STATUS
proces doorloopt de fasen die zijn gedefinieerd in de volgende tabel in het BMM-inrichtingsproces (zie BMM-status in Azure Operator Nexus-rekenconcepten):
Fase | Acties |
---|---|
Registering |
Controleert de BMC-connectiviteit/BMC-referenties en voegt de BMM toe aan de inrichtingsservice. |
Preparing |
Start de BMM opnieuw op, stelt de BMC opnieuw in en controleert de energiestatus. |
Inspecting |
Werkt firmware bij, past BIOS-instellingen toe en configureert opslag. |
Available |
Geeft aan dat de BMM gereed is om het besturingssysteem te installeren. |
Provisioning |
Geeft aan dat de installatiekopieën van het besturingssysteem op de BMM worden geïnstalleerd. Nadat het besturingssysteem is geïnstalleerd, probeert de BMM lid te worden van het cluster. |
Provisioned |
Geeft aan dat de BMM is ingericht en is toegevoegd aan het cluster. |
Deprovisioning |
Geeft aan dat BMM-inrichting is mislukt. Met de inrichtingsservice wordt de resource opgeschoond om het opnieuw te proberen. |
Failed |
Geeft aan dat BMM-inrichting is mislukt en handmatig herstel is vereist. Alle nieuwe pogingen zijn uitgeput. |
Tijdens elke fase wordt de gedetailleerde BMM-status ingesteld op Failed
. De fase wordt geblokkeerd als een van de volgende onderbrekingen optreedt:
- De BMC is niet beschikbaar.
- Een netwerkpoort is offline.
- Een hardwareonderdeel mislukt.
Ga als volgende te werk om een gedetailleerdere status van de BMM te krijgen:
az networkcloud baremetalmachine list -g $CLUSTER_MRG --query "sort_by([].{name:name,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" --output table
Name ReadyState ProvisioningState DetailedStatus DetailedStatusMessage PowerState MachineRoles CreatedAt
------------ ---------- ----------------- -------------- ----------------------------------------- ---------- ------------------------------------------------ -----------
BMM_NAME RSTATE PROV_STATE STATUS STATUS_MSG POWER_STATE BMM_ROLE CREATE_DATE
In de volgende tabel ziet u waar de uitvoer is gedefinieerd.
Uitvoer | Definitie |
---|---|
BMM_NAME |
BMM-naam. |
RSTATE |
Status van clusterdeelname (True ,False ). |
PROV_STATE |
Inrichtingsstatus (Succeeded ,Failed ). |
STATUS |
Gedetailleerde status inrichten (,,,,,,Provisioned ,).Failed Deprovisioning ).Provisioning Available Inspecting Preparing Registering |
STATUS_MSG |
Gedetailleerd bericht over inrichtingsstatus. |
POWER_STATE |
Energiestatus van BMM (On ,Off ). |
BMM_ROLE |
BMM-clusterrol (control-plane ,management-plane ,compute-plane ). |
CREATE_DATE |
BMM-aanmaakdatum. |
Voorbeeld:
x01dev01c01w01 True Succeeded Provisioned The OS is provisioned to the machine On platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
x01dev01c01w01 False Failed Preparing Preparing for provisioning of the machine Off platform.afo-nc.microsoft.com/compute-plane=true 2024-05-03T15:12:48.0934793Z
BMM-details
Details en de status van één BMM weergeven:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME
Voor BMM-details die specifiek zijn voor het oplossen van problemen:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,Connect:bmcConnectionString,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Problemen met mislukte inrichtingsstatussen oplossen
De volgende voorwaarden kunnen leiden tot inrichtingsfouten.
Fouttype | Oplossing |
---|---|
BMC geeft kritieke fout weer Backplane Comm . |
1. Voer BMM externe vlooienafvoer uit. 2. Voer de fysieke vlooienafvoer van BMM uit. 3. Voer de BMM-actie replace uit. |
Het netwerkgegevensantwoord (PXE) opstarten is leeg vanuit BMC. | 1. Stel de poort opnieuw in op het fabric-apparaat. 2. Voer BMM externe vlooienafvoer uit. 3. Voer de fysieke vlooienafvoer van BMM uit. 4. Voer de BMM-actie replace uit. |
Het MAC-adres van HET OPSTARTEN (PXE) komt niet overeen. | 1. Valideer BMM MAC-adresgegevens op basis van BMC-gegevens. 2. Voer BMM externe vlooienafvoer uit. 3. Voer de fysieke vlooienafvoer van BMM uit. 4. Voer de BMM-actie replace uit. |
BMC MAC-adres komt niet overeen. | 1. Valideer BMM MAC-adresgegevens op basis van BMC-gegevens. 2. Voer BMM externe vlooienafvoer uit. 3. Voer de fysieke vlooienafvoer van BMM uit. 4. Voer de BMM-actie replace uit. |
Antwoord van schijfgegevens leeg van BMC. | 1. Schijf verwijderen of vervangen. 2. Verwijder of vervang de opslagcontroller. 3. Voer BMM externe vlooienafvoer uit. 4. Voer de fysieke vloafvoer van BMM uit. 5. Voer de BMM-actie replace uit. |
BMC is niet bereikbaar. | 1. Stel de poort opnieuw in op het fabric-apparaat. 2. Verwijder of vervang de kabel. 3. Voer BMM externe vlooienafvoer uit. 4. Voer de fysieke vloafvoer van BMM uit. 5. Voer de BMM-actie replace uit. |
Aanmelden bij BMC mislukt. | 1. Werk referenties bij op BMC. 2. Voer de BMM-actie replace uit. |
Geheugen, CPU, OEM-kritieke fouten op BMC. | 1. Los het hardwareprobleem op met verwijderen of vervangen. 2. Voer BMM externe vlooienafvoer uit. 3. Voer de fysieke vlooienafvoer van BMM uit. 4. Voer de BMM-actie replace uit. |
Console blijft hangen bij het opstartlaadprogramma (GRUB) menu. | 1. Voer NVRAM reset uit. 2. Voer de BMM-actie replace uit. |
Azure BMM-activiteitenlogboek
- Meld u aan bij het Azure-portaal.
- Zoek op de BMM-naam in het bovenste zoekvak .
- Selecteer de naam van de Bare Metal Machine (Operator Nexus) in de zoekresultaten.
- Selecteer activiteitenlogboek in het servicemenu.
- Zorg ervoor dat de tijdsperiode de inrichtingsperiode omvat.
- Vouw de
BareMetalMachines_Update
bewerking uit en selecteer alle BMM's die eenFailed
status weergeven. - Selecteer het JSON-tabblad om het gedetailleerde statusbericht op te halen.
Zoek naar fouten met betrekking tot ongeldige referenties of als de BMC niet beschikbaar is.
Het BMC IPv4-adres bepalen
Het IPv4-adres van de BMC (BMC_IP
) bevindt zich in de Connect
waarde die wordt geretourneerd uit de vorige sectie 'BMM-details'.
Het MAC-adres van de BMM valideren op basis van BMC-gegevens
De MAC-adresgegevens ophalen uit de BMM:
az networkcloud baremetalmachine show -g $CLUSTER_MRG -n $BMM_NAME --query "{name:name,BootMAC:bootMacAddress,BMCMAC:bmcMacAddress,SN:serialNumber,rackId:rackId,RackSlot:rackSlot}" -o table
Controleer de MAC-adresgegevens op basis van de BMC via de webgebruikersinterface:
BMC
>Dashboard
: Toont het BMC MAC-adres.BMC
>System Info
>Network
>Embedded.1-1-1
: Geeft het MAC-adres voor opstarten weer.
Controleer of het MAC-adres wordt gebruikt racadm
vanuit een jumpbox die toegang heeft tot het BMC-netwerk:
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "MAC Address " #BMC MAC
racadm --nocertwarn -r $IP -u $BMC_USR -p $BMC_PWD getsysinfo | grep "NIC.Embedded.1-1-1" #Boot MAC
Als het MAC-adres dat aan het cluster is opgegeven onjuist is, gebruikt u de BMM-actie replace
bij BMM-acties om de adressen te corrigeren.
Ping test BMC-connectiviteit
Probeer de ping
opdracht uit te voeren op het BMC IPv4-adres:
Haal het IPv4-adres (
BMC_IP
) op uit de vorige sectie 'Het BMC IPv4-adres bepalen'.Test
ping
naar de BMC:Testen vanuit een jumpbox die toegang heeft tot het BMC-netwerk:
ping $BMC_IP -c 3
Als u wilt testen vanaf een BMM-besturingsvlakhost met behulp van de Azure CLI:
az networkcloud baremetalmachine run-read-command -g $CLUSTER_MRG -n $BMM_NAME --limit-time-seconds 60 --commands "[{command:'ping',arguments:['$BMC_IP',-c,3]}]"
De poort op een fabric-apparaat opnieuw instellen
Als BMC_IP
dit niet reageert, wordt de automatische overdracht van de poort van het fabric-apparaat opnieuw ingesteld op de poort en wordt deze mogelijk weer online gebracht.
Ga als volgende te werk om de Network Fabric
poort te vinden vanuit Azure:
Haal de
RackID
enRackSlot
waarden op uit de vorige sectie 'BMM-details'.Zoom in Azure Portal in op de netwerkrek-id voor de BMM.
Selecteer het tabblad Netwerkapparaten en selecteer vervolgens de beheerswitch (Mgmt) voor het rek.
Selecteer onder Resources de optie Netwerkinterfaces. Selecteer vervolgens de BMC-interface (iDRAC) of de PXE-interface (Boot) voor de poort waarvoor opnieuw moet worden ingesteld.
Verzamel de volgende informatie:
- Netwerkinfrastructuurresourcegroep (
NF_RG
) - Apparaatnaam (
NF_DEVICE_NAME
) - Interfacenaam (
NF_DEVICE_INTERFACE_NAME
)
- Netwerkinfrastructuurresourcegroep (
De poort opnieuw instellen:
Ga als volgende te werk om de poort opnieuw in te stellen met behulp van de Azure CLI:
az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Disable az networkfabric interface update-admin-state -g $NF_RG --network-device-name $NF_DEVICE_NAME --resource-name $NF_DEVICE_INTERFACE_NAME --state Enable
BMM externe stroomafvoer (vlooienafvoer)
Om een externe vlooienafvoer uit te voeren tegen de BMM via de BMC UI:
Selecteer BIOS-instellingen voor BMC-configuratie>>>diverse instellingen.
Selecteer onder Power Cycle-aanvraag de optie Volledige energiecyclus. Selecteer Vervolgens Toepassen en opnieuw opstarten.
Voer een externe vlooienafvoer uit met behulp van racadm
een jumpbox die toegang heeft tot het BMC-netwerk:
racadm set bios.miscsettings.powercyclerequest FullPowerCycle
racadm jobqueue create BIOS.Setup.1-1
racadm serveraction powercycle
BMM fysieke stroomafvoer (vlooienafvoer)
Voor een fysieke vlooienafvoer koppelt de lokale site de stroomkabels gedurende vijf minuten fysiek los van beide voedingsadapters en herstelt ze vervolgens stroom. Dit proces zorgt ervoor dat de server, condensatoren en alle onderdelen volledige stroomverwijdering hebben en dat alle gegevens in de cache worden gewist.
NVRAM opnieuw instellen
Als het inrichten is mislukt vanwege een OEM- of hardwarefout, is de opstartvolgorde mogelijk vergrendeld in NVRAM om in plaats van hdd
eerst in de opstartvolgorde weer te PXE boot
geven of hard drive
te vermelden.
Deze voorwaarde toont doorgaans de BMM in de bootloader-fase op de console en wordt geblokkeerd zonder handmatige toetsaanslag.
Als u de NVRAM opnieuw wilt instellen, gebruikt u de volgende volgorde in de BMC-gebruikersinterface:
Selecteer Diagnostische gegevens>voor onderhoud>opnieuw instellen van iDrac naar fabrieksinstellingen.
Selecteer Alle instellingen negeren, maar behoud de gebruikers- en netwerkinstellingen en selecteer Vervolgens Toepassen en opnieuw opstarten.
Het BMC-wachtwoord opnieuw instellen
Als in het activiteitenlogboek ongeldige referenties op de BMC worden aangegeven, voert u de volgende opdracht uit vanuit een jumpbox die toegang heeft tot het BMC-netwerk:
racadm -r $BMC_IP -u $BMC_USER -p $CURRENT_PASSWORD set iDRAC.Users.2.Password $BMC_PWD
Servers weer toevoegen aan het cluster na een reparatie
Nadat de hardware is opgelost, voert u de BMM-actie replace
uit door de instructies te volgen in De levenscyclus van bare-metalmachines beheren.
Gerelateerde inhoud
- Neem contact op met ondersteuning voor Azure als u nog steeds vragen hebt.
- Zie Azure ondersteuningsplannen voor meer informatie over ondersteuningsplannen.