Server 2022 Datacenter S2D Hyper-V - Sudden Failovercluster noderemoval

Question

Dear all,

We had a strange issue this night regarding our S2D Hyper-V cluster running on 3 identical nodes:

(German Errormessages, sorry)

At 00:40 am one Node02 reported event 4629:

ClusterMrr API-Anforderungshandler hat auf diesem Knoten die Zeit überschritten.

Nachrichtenbeschreibung:

Aktivität für Nachricht: stm/ClusterMrr

Komponente: CLUSTER_MRR_COMPONENT_SPACES

TimeoutInSeconds: 600

This happened 7 times in a row on Node02.

Afterwards, at 01:37 am, Node01 is removed from the Failovercluster:

Der Clusterknoten "Node01" wurde aus der aktiven Failovercluster-Mitgliedschaft entfernt. Möglicherweise wurde der Clusterdienst auf dem Knoten beendet. Dies kann darauf zurückzuführen sein, dass die Verbindung zwischen dem Knoten und anderen aktiven Knoten im Failovercluster unterbrochen wurde. Führen Sie den Konfigurationsüberprüfungs-Assistenten aus, um die Netzwerkkonfiguration zu prüfen. Wenn das Problem weiterhin besteht, prüfen Sie, ob Hardware- oder Softwarefehler in Bezug auf den Netzwerkadapter vorliegen. Prüfen Sie auch, ob andere Netzwerkkomponenten fehlerhaft sind, an die der Knoten angeschlossen ist, z. B. Hubs, Switches oder Brücken.

And also Node03 at the same time:

Der Clusterknoten "Node03" wurde aus der aktiven Failovercluster-Mitgliedschaft entfernt. Möglicherweise wurde der Clusterdienst auf dem Knoten beendet. Dies kann darauf zurückzuführen sein, dass die Verbindung zwischen dem Knoten und anderen aktiven Knoten im Failovercluster unterbrochen wurde. Führen Sie den Konfigurationsüberprüfungs-Assistenten aus, um die Netzwerkkonfiguration zu prüfen. Wenn das Problem weiterhin besteht, prüfen Sie, ob Hardware- oder Softwarefehler in Bezug auf den Netzwerkadapter vorliegen. Prüfen Sie auch, ob andere Netzwerkkomponenten fehlerhaft sind, an die der Knoten angeschlossen ist, z. B. Hubs, Switches oder Brücken.

Accordingly, any VMs running on the machines froze, since the cluster quorum was no longer existent.

@01:37:25 Quorum Manger Reported

Der Clusterdienst wird heruntergefahren, da die Quorumverbindung getrennt wurde. Dies kann darauf zurückzuführen sein, dass die Netzwerkverbindung zwischen einigen oder allen Knoten im Cluster unterbrochen wurde oder dass ein Zeugendatenträgerfailover stattgefunden hat.

Führen Sie den Konfigurationsüberprüfungs-Assistenten aus, um die Netzwerkkonfiguration zu prüfen. Wenn das Problem weiterhin besteht, prüfen Sie, ob Hardware- oder Softwarefehler in Bezug auf den Netzwerkadapter vorliegen. Prüfen Sie auch, ob andere Netzwerkkomponenten fehlerhaft sind, an die der Knoten angeschlossen ist, z. B. Hubs, Switches oder Brücken.

All Nodes are connected via 2x 10GBase-T to 2 switches, and also to avoid any network-induced problems for Storage, each Node has a direct Connection to each of the other 2 Nodes.

On the Switch-Side during this time, all network ports have been up and no further errors reported.

Also the NetworkProfile-Operational Eventlog doesn't indicate any network changes around that time.

I don't see any reason for this behaviour and would like to avoid this in the future.

Happy to provide further details where needed.

Thanks!

Answer

Diese Antwort wurde automatisch übersetzt. Daher können grammatikalische Fehler oder seltsame Formulierungen vorkommen.

Hallo Volker,

Ich hoffe, es geht dir gut.

Ereignis 4629: Zeitüberschreitung des ClusterMRR-API-Anforderungshandlers

Dieser Fehler weist darauf hin, dass für den ClusterMrr-API-Anforderungshandler eine Zeitüberschreitung aufgetreten ist. Dies kann auf hohe E/A-Vorgänge oder Netzwerklatenz zurückzuführen sein. Hier sind einige Schritte, um dies zu untersuchen und zu beheben:

(1) Verwenden Sie Tools zur Leistungsüberwachung, um zum Zeitpunkt des Fehlers nach Spitzen in der Festplatten- oder Netzwerk-E/A zu suchen.

(2) Stellen Sie sicher, dass Ihre Netzwerkinfrastruktur (Switches, NICs) keine hohe Latenz oder Paketverluste aufweist.

(3) Stellen Sie sicher, dass alle Treiber und Firmware für Ihre Netzwerkadapter und Speichercontroller auf dem neuesten Stand sind.

Das Entfernen von Knoten aus dem Cluster weist auf einen Verlust der Kommunikation zwischen den Knoten hin. Dies kann auf Netzwerkprobleme oder Fehler bei Clusterdiensten zurückzuführen sein.

(1) Verwenden Sie den Failovercluster-Manager, um den Clusterüberprüfungs-Assistenten auszuführen und nach Konfigurationsproblemen zu suchen.

(2) Stellen Sie sicher, dass alle Netzwerkadapter korrekt konfiguriert sind und dass keine IP-Konflikte vorliegen.

(3) Stellen Sie sicher, dass die Netzwerkeinstellungen des Clusters korrekt sind und dass alle Knoten ohne Probleme miteinander kommunizieren können.

Der Verlust des Quorums deutet darauf hin, dass der Cluster die Mehrheit der Stimmen nicht aufrechterhalten konnte, was zu einer Abschaltung des Clusterdiensts führte.

(1) Stellen Sie sicher, dass Sie einen Zeugen (Datenträger oder Dateifreigabe) konfiguriert haben, um das Quorum aufrechtzuerhalten.

(2) Stellen Sie sicher, dass Ihr Netzwerk-Setup über ausreichende Redundanz verfügt, um einen Single Point of Failure zu verhindern.

Alles Gute

Freigeben über

Server 2022 Datacenter S2D Hyper-V - Sudden Failovercluster noderemoval

1 Antwort