Procédures de maintenance du cluster de basculement
S’applique à : Azure Stack HCI, versions 22H2 et 21H2, Windows Server 2022, Windows Server 2019, Windows Server 2016
Important
Azure Stack HCI fait désormais partie d’Azure Local. Le changement de nom de la documentation produit est en cours. Toutefois, les versions antérieures d’Azure Stack HCI, par exemple 22H2, continueront de référencer Azure Stack HCI et ne reflèteront pas la modification du nom. Plus d’informations
Cet article part du principe que vous devez mettre hors tension un serveur physique pour effectuer une opération de maintenance ou le redémarrer pour une raison quelconque. Pour installer des mises à jour sur un cluster Azure Stack HCI sans mettre les serveurs hors connexion, consultez Mettre à jour les clusters Azure Stack HCI.
Le fait de mettre un serveur hors connexion à des fins de maintenance implique de mettre hors connexion des parties du stockage qui sont partagées entre tous les serveurs d’un cluster de basculement. Cela nécessite de suspendre le serveur que vous souhaitez mettre hors connexion, de mettre les disques du serveur en mode maintenance, de déplacer les rôles et les machines virtuelles en cluster vers d’autres serveurs dans le cluster, et de vérifier que toutes les données sont disponibles sur les autres serveurs dans le cluster. Ce processus garantit que les données restent sécurisées et accessibles pendant la période de maintenance.
Vous pouvez utiliser Windows Admin Center ou PowerShell pour mettre un serveur hors connexion à des fins de maintenance. Cette rubrique décrit les deux méthodes.
Mettre un serveur hors connexion à l’aide de Windows Admin Center
Le moyen le plus simple de préparer un serveur hors connexion consiste à utiliser Windows Admin Center.
Vérifier qu’il est possible de mettre le serveur hors connexion sans risque
À l’aide de Windows Admin Center, connectez-vous au serveur que vous voulez mettre hors connexion. Sélectionnez Stockage > Disques dans le menu Outils et vérifiez que la colonne État de chaque disque virtuel affiche En ligne.
Sélectionnez ensuite Stockage > Volumes et vérifiez que la colonne Intégrité de chaque volume affiche Sain et que la colonne État de chaque volume affiche OK.
Suspendre et purger le serveur
Avant d’arrêter ou de redémarrer un serveur, vous devez suspendre le serveur et drainer (déplacer) tous les rôles en cluster, tels que les machines virtuelles qui s’exécutent dessus. Suspendez et purgez toujours les serveurs en cluster avant de les mettre hors connexion pour maintenance.
À partir de Windows Admin Center, connectez-vous au cluster, puis sélectionnez Calcul > Serveurs dans le menu Outils du Gestionnaire de cluster.
Sélectionnez le stock. Cliquez sur le nom du serveur que vous souhaitez suspendre et purger, puis sélectionnez Suspendre. L’invite suivante doit s’afficher :
Mettre en pause le ou les serveurs pour la maintenance : voulez-vous vraiment mettre en pause le ou les serveurs ? Cela déplace les charges de travail, comme les machines virtuelles, vers d’autres serveurs du cluster.
Sélectionnez Oui pour suspendre le serveur et lancer le processus de purge. L’état du serveur indique In maintenance, Draining (En maintenance, drainage), et des rôles tels que Hyper-V et Machines virtuelles commencent immédiatement à migrer vers un ou plusieurs autres serveurs se trouvant dans le cluster. Cette opération peut prendre quelques minutes. Aucun rôle ne peut être ajouté au serveur tant qu’il n’a pas repris. Une fois le processus de drainage terminé, l’état du serveur est In maintenance, Drain completed (En maintenance, drainage terminé). Le système d’exploitation effectue une vérification automatique de sécurité pour garantir la poursuite sans risque des opérations. Si des volumes ne sont pas intègres, le processus s’arrête et vous êtes averti qu’il est déconseillé de continuer.
Arrêter le serveur
Une fois que le serveur a terminé le drainage, vous pouvez l’arrêter en toute sécurité pour la maintenance ou pour le redémarrer.
Avertissement
Si le serveur exécute Azure Stack HCI, version 20H2, Windows server 2019 ou Windows Server 2016, vous devez placer les disques en mode Maintenance avant d’arrêter le serveur et sortir les disques du mode Maintenance avant de reprendre l’exécution du serveur dans le cluster.
Reprendre l’exécution du serveur
Quand vous êtes prêt pour que le serveur commence à réhéberger les rôles en cluster et les machines virtuelles, il vous suffit mettre le serveur sous tension, d’attendre qu’il démarre et de reprendre son exécution en effectuant les étapes suivantes.
Dans le Gestionnaire de cluster, sélectionnez Calcul > Serveurs dans le menu Outils à gauche.
Sélectionnez le stock. Sélectionnez le nom du serveur à relancer, puis cliquez sur Reprendre.
Les rôles et les machines virtuelles en cluster commencent directement à re-migrer vers le serveur. Cette opération peut prendre quelques minutes.
Attendre la resynchronisation du stockage
Quand l’exécution du serveur reprend, toute nouvelle écriture qui s’est produite alors qu’il n’était pas disponible doit être resynchronisée. Cela se produit automatiquement à l’aide du suivi intelligent des changements. Il n’est pas nécessaire que toutes les données soient analysées ou synchronisées, mais uniquement les changements. Ce processus est limité pour atténuer l’impact sur les charges de travail de production. En fonction de la durée pendant laquelle le serveur a été mis en pause et de a quantité de nouvelles données qui ont été écrites, cela peut prendre plusieurs minutes.
Important
Vous devez attendre la fin de la resynchronisation pour pouvoir mettre hors connexion d’autres serveurs du cluster.
Pour vérifier si la resynchronisation du stockage est terminée :
- Connectez-vous au cluster à l’aide de Windows Admin Center et sélectionnez Volumes de stockage>.
- Sélectionnez le stock.
- Vérifiez la colonne État pour chaque volume. S’il affiche OK, la resynchronisation du stockage est terminée. Il est désormais sûr de mettre d’autres serveurs hors connexion dans le cluster.
Mettre un serveur hors connexion à l’aide de PowerShell
Utilisez les procédures suivantes pour correctement suspendre un serveur, le drainer et reprendre son exécution dans un cluster de basculement à l’aide de PowerShell.
Vérifier qu’il est possible de mettre le serveur hors connexion sans risque
Pour vérifier que tous vos volumes sont intègres, exécutez l’applet de commande suivante en tant qu’administrateur :
Get-VirtualDisk
Voici un exemple de ce à quoi la sortie peut ressembler :
FriendlyName ResiliencySettingName FaultDomainRedundancy OperationalStatus HealthStatus Size FootprintOnPool StorageEfficiency
------------ --------------------- --------------------- ----------------- ------------ ---- --------------- -----------------
Mirror II Mirror 1 OK Healthy 4 TB 8.01 TB 49.99%
Mirror-accelerated parity OK Healthy 1002 GB 1.96 TB 49.98%
Mirror Mirror 1 OK Healthy 1 TB 2 TB 49.98%
ClusterPerformanceHistory Mirror 1 OK Healthy 24 GB 49 GB 48.98%
Vérifiez que la propriété HealthStatus de chaque volume a la valeur Sain et qu’OperationalStatus indique OK.
Pour effectuer cette opération dans le Gestionnaire du cluster de basculement, accédez à Stockage>Disques.
Suspendre et purger le serveur
Exécutez l’applet de commande suivante en tant qu’administrateur pour suspendre et purger le serveur :
Suspend-ClusterNode -Drain
Pour effectuer ces opérations dans le Gestionnaire du cluster de basculement, accédez à Nœuds, cliquez avec le bouton droit sur le nœud concerné, puis sélectionnez Suspendre>Rôles de drainage.
Si le serveur exécute Azure Stack HCI version 21H2 ou Windows Server 2022, la mise en pause et le drainage du serveur placent également les disques du serveur en mode de maintenance. Si le serveur exécute Azure Stack HCI, version 20H2, Windows server 2019 ou Windows Server 2016, vous devrez procéder manuellement (voir l’étape suivante).
Placer les disques en mode Maintenance
Dans Azure Stack HCI, version 20H2, Windows Server 2019 et Windows Server 2016, le fait de placer les disques du serveur en mode de maintenance donne aux espaces de stockage direct la possibilité de vider et de valider normalement les données pour s’assurer que l’arrêt du serveur n’a pas d’incidence sur l’état de l’application. Dès qu’un disque passe en mode de maintenance, il n’autorise plus les écritures. Pour réduire les temps de resynchronisation du stockage, nous vous recommandons de placer les disques en mode de maintenance juste avant le redémarrage, et de les sortir du mode de maintenance dès la sauvegarde du système effectuée.
Remarque
Si le serveur exécute Azure Stack HCI version 21H2 ou Windows server 2022, vous pouvez ignorer cette étape, car les disques sont automatiquement mis en mode de maintenance quand le serveur est mis en pause et drainé. Ces systèmes d’exploitation sont dotés d’une fonctionnalité de réparation précise qui rend les resynchronisations plus rapides et moins impactantes sur les ressources système et réseau, ce qui permet d’effectuer simultanément une maintenance de serveur et de stockage.
Si le serveur exécute Windows Server 2019 ou Azure Stack HCI, version 20H2, exécutez l’applet de commande suivante en tant qu’administrateur :
Get-StorageScaleUnit -FriendlyName "Server1" | Enable-StorageMaintenanceMode
Si le serveur exécute Windows Server 2016, utilisez plutôt la syntaxe suivante :
Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Enable-StorageMaintenanceMode
Arrêter le serveur
Une fois le drainage du serveur terminé, il s’affiche comme Suspendu dans PowerShell et le Gestionnaire du cluster de basculement.
Vous pouvez maintenant arrêter le serveur ou le redémarrer de manière sécurisée à l’aide des applets de commande PowerShell Stop-Computer
ou Restart-Computer
, ou en utilisant le Gestionnaire du cluster de basculement.
Remarque
Lors de l’exécution d’une commande Get-VirtualDisk
sur des serveurs qui éteignent ou qui démarrent/arrêtent le service de cluster, l’état Opérationnel du serveur peut être signalé comme étant incomplet ou détérioré, et la colonne État d’intégrité peut afficher un avertissement. Ce comportement est normal et ne doit pas susciter de préoccupations. Tous vos volumes restent en ligne et accessibles.
Sortir les disques du mode Maintenance
Si le serveur exécute Azure Stack HCI, version 20H2, Windows server 2019 ou Windows Server 2016, vous devez désactiver le mode de maintenance du stockage sur les disques avant de reprendre l’exécution du serveur dans le cluster. Pour réduire les temps de resynchronisation du stockage, nous vous recommandons de les sortir du mode de maintenance dès la sauvegarde du système effectuée.
Remarque
Si le serveur exécute Azure Stack HCI version 21H2 ou Windows Server 2022, vous pouvez ignorer cette étape, car les disques sont automatiquement retirés du mode de maintenance en cas de reprise du serveur.
Si le serveur exécute Windows Server 2019 ou Azure Stack HCI, version 20H2, exécutez l’applet de commande suivante en tant qu’administrateur pour désactiver le mode de maintenance du stockage :
Get-StorageScaleUnit -FriendlyName "Server1" | Disable-StorageMaintenanceMode
Si le serveur exécute Windows Server 2016, utilisez plutôt la syntaxe suivante :
Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Disable-StorageMaintenanceMode
Reprendre l’exécution du serveur
Reprenez l’exécution du serveur dans le cluster. Pour retourner les rôles en cluster et les machines virtuelles qui étaient préalablement en cours d’exécution sur le serveur, utilisez l’indicateur facultatif -Failback :
Resume-ClusterNode –Failback Immediate
Pour effectuer cette opération dans le Gestionnaire du cluster de basculement, accédez à Nœuds, cliquez avec le bouton droit sur le nœud concerné, puis sélectionnez Reprendre>Restaurer les rôles.
Dès que le serveur aura repris son activité, il s’affichera comme Actif dans PowerShell et dans le Gestionnaire du cluster de basculement.
Attendre la resynchronisation du stockage
Quand l’exécution du serveur reprend, vous devez attendre la fin de la resynchronisation pour pouvoir mettre hors connexion d’autres serveurs du cluster.
Exécutez l’applet de commande suivante en tant qu’administrateur pour superviser la progression :
Get-StorageJob
Si la resynchronisation est déjà terminée, vous n’obtenez aucune sortie.
Voici un exemple de sortie montrant des travaux de resynchronisation (réparation) toujours en cours d’exécution :
Name IsBackgroundTask ElapsedTime JobState PercentComplete BytesProcessed BytesTotal
---- ---------------- ----------- -------- --------------- -------------- ----------
Repair True 00:06:23 Running 65 11477975040 17448304640
Repair True 00:06:40 Running 66 15987900416 23890755584
Repair True 00:06:52 Running 68 20104802841 22104819713
La colonne BytesTotal indique la quantité de stockage à resynchroniser. La colonne PercentComplete affiche la progression.
Avertissement
Mettre un autre serveur hors connexion est une action risquée tant que ces travaux de réparation ne sont pas terminés.
Pendant ce temps, sous HealthStatus, vos volumes continuent à s’afficher comme Avertissement, ce qui est normal.
Par exemple, si vous utilisez l’applet de commande Get-VirtualDisk
pendant la resynchronisation du stockage, la sortie suivante peut s’afficher :
FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1 Mirror InService Warning True 1 TB
MyVolume2 Mirror InService Warning True 1 TB
MyVolume3 Mirror InService Warning True 1 TB
Une fois les travaux terminés, vérifiez que les volumes s’affichent comme Sains en utilisant à nouveau l’applet de commande Get-VirtualDisk
. Voici un exemple de sortie :
FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1 Mirror OK Healthy True 1 TB
MyVolume2 Mirror OK Healthy True 1 TB
MyVolume3 Mirror OK Healthy True 1 TB
Vous pouvez maintenant suspendre et redémarrer d’autres serveurs du cluster sans risque.
Étapes suivantes
Pour consulter des informations connexes, reportez-vous également à :