Superviser des clusters avec le Service de contrôle d’intégrité

Article
11/23/2024

S’applique à : Azure Local, versions 23H2 et 22H2 ; Windows Server 2022, Windows Server 2019, Windows Server 2016

Le Service de contrôle d’intégrité, introduit dans Windows Server 2016, améliore la supervision quotidienne et l’expérience opérationnelle pour les clusters exécutant des espaces de stockage direct.

Prérequis

Le service de contrôle d’intégrité est activé par défaut avec les espaces de stockage direct. Aucune action supplémentaire n’est requise pour le configurer ou le démarrer. Pour en savoir plus sur les espaces de stockage direct, consultez Vue d’ensemble des espaces de stockage direct.

Historique des performances du cluster

Obtenez des informations en direct sur les performances et la capacité de votre cluster d’espaces de stockage direct. Consultez Obtenir l’historique des performances des clusters.

Erreurs du Service de contrôle d’intégrité

Affichez les erreurs actuelles éventuelles pour vérifier facilement l’intégrité de votre déploiement. Consultez Afficher les erreurs du Service de contrôle d’intégrité.

Actions du Service de contrôle d’intégrité

Suivez la progression des actions du Service de contrôle d’intégrité effectuées de manière autonome. Consultez Suivre les actions du Service de contrôle d’intégrité.

Automation

Cette section décrit les flux de travail automatisés par le service de contrôle d’intégrité pendant le cycle de vie du disque.

Cycle de vie du disque

Le service de contrôle d’intégrité automatise la plupart des étapes du cycle de vie du disque physique. Supposons que l’état initial de votre déploiement soit parfait : autrement dit, tous les disques physiques fonctionnent correctement.

Mise hors service

Les disques physiques sont automatiquement mis hors service quand ils ne peuvent plus être utilisés et une erreur correspondante est générée. Plusieurs cas existent :

Défaillance de média : le disque physique est définitivement défaillant ou détérioré et doit être remplacé.
Perte de communication : le disque physique a perdu la connectivité pendant plus de 15 minutes consécutives.
Absence de réponse : le disque physique a montré une latence de plus de 5 secondes trois fois ou plus en une heure.

Remarque

En cas de perte de connexion à de nombreux disques physiques en même temps ou à un nœud ou boîtier de stockage entier, le service de contrôle d’intégrité ne met pas hors service ces disques car ils ont peu de chances d’être à l’origine du problème.

Si le disque mis hors service servait de cache à de nombreux autres disques physiques, ceux-ci sont automatiquement réaffectées à un autre disque de cache s’il y en a un disponible. Aucune action spéciale de l’utilisateur n’est nécessaire.

Restauration de la résilience

Une fois qu’un disque physique a été mis hors service, le service de contrôle d’intégrité commence immédiatement à copier ses données sur les disques physiques restants, pour restaurer la résilience complète. Une fois l’opération terminée, les données sont à nouveau totalement sûres et à tolérance de panne.

Remarque

Cette restauration immédiate nécessite une capacité disponible suffisante entre les disques physiques restants.

Clignotement du témoin lumineux

Si possible, le service de contrôle d’intégrité commence à faire clignoter le témoin lumineux sur le disque physique mis hors service ou son emplacement. Ce clignotement se poursuit jusqu’à ce que le disque mis hors service soit remplacé.

Remarque

Dans certains cas, le disque peut avoir échoué d’une manière qui empêche même son témoin lumineux de fonctionner (par exemple, en cas de coupure totale d’alimentation).

Remplacement physique

Vous devez remplacer le disque physique mis hors service quand cela est possible. La plupart du temps, il s’agit d’un échange à chaud, c’est-à-dire qu’il est inutile de mettre le nœud ou le boîtier de stockage hors tension. Consultez l’erreur pour obtenir des informations utiles sur l’emplacement et le composant concernés.

Vérification

Quand le disque de remplacement est inséré, une vérification est effectuée pour voir s’il figure dans le document des composants pris en charge (voir la section suivante).

Pooling

Sur autorisation, le disque de remplacement est automatiquement remplacé dans le pool de son prédécesseur pour entrer en utilisation. À ce stade, le système est rétabli à son état initial d’intégrité parfaite, puis l’erreur disparaît.

Document des composants pris en charge

Le Service de contrôle d’intégrité fournit un mécanisme d’application pour limiter les composants utilisés par les espaces de stockage direct à ceux qui figurent dans le document des composants pris en charge fourni par l’administrateur ou le fournisseur de la solution. Ce mécanisme permet de vous empêcher, ainsi que d’autres, d’utiliser par erreur du matériel non pris en charge, facilitant ainsi la conformité aux contrats de garantie ou de support. Cette fonctionnalité est actuellement limitée aux périphériques de disque physique, notamment aux périphériques SSD, HDD et NVMe. Le document des composants pris en charge peut limiter le modèle, le fabricant (facultatif) et la version du microprogramme (facultatif).

Utilisation

Le document des composants pris en charge utilise une syntaxe inspirée du langage XML. Nous vous recommandons d’utiliser votre éditeur de texte préféré, comme Visual Studio Code ou le Bloc-notes gratuit, pour créer un document XML que vous pouvez enregistrer et réutiliser.

Sections

Le document comporte deux sections indépendantes : Disks et Cache .

Si la section Disks est fournie, seuls les lecteurs listés (comme Disk) sont autorisés à joindre des pools. Tout lecteur non listé ne peut pas joindre des pools, ce qui exclut effectivement leur utilisation en production. Si cette section est laissée vide, tout lecteur est autorisé à joindre des pools.

Si la section Cache est fournie, seuls les lecteurs listés (comme CacheDisk) sont utilisés pour la mise en cache. Si cette section est vide, les espaces de stockage direct tentent une estimation en fonction du type de média et du type de bus. Les lecteurs listés ici doivent également être listés dans Disks.

Important

Le document des composants pris en charge ne s’applique pas rétroactivement aux lecteurs déjà mis en pool et en cours d’utilisation.

Exemple

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Disks>

  <Cache>
    <CacheDisk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </CacheDisk>
  </Cache>

</Components>

Pour lister plusieurs lecteurs, ajoutez simplement des balises <Disk> ou <CacheDisk> supplémentaires.

Pour injecter ce code XML lors du déploiement d’espaces de stockage direct, utilisez le paramètre -XML :

$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML

Pour définir ou modifier le document des composants pris en charge une fois les espaces de stockage direct déployés :

$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML

Remarque

Les propriétés du modèle, du fabricant et de la version du microprogramme doivent correspondre exactement aux valeurs que vous obtenez à l’aide de l’applet de commande Get-PhysicalDisk. Celles-ci ne tombent pas toujours sous le sens, mais dépendent de l’implémentation de votre fournisseur. Par exemple, au lieu de « Contoso », le fabricant peut être « CONTOSO LTD » ou il peut ne pas être renseigné quand le modèle est « Contoso-XZY9000 ».

Vous pouvez procéder à une vérification à l’aide de l’applet de commande PowerShell suivante :

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion

Paramètres du Service de contrôle d’intégrité

Modifiez les paramètres du Service de contrôle d’intégrité pour ajuster l’agressivité des erreurs ou des actions, activer ou désactiver certains comportements, etc. Consultez Modifier les paramètres du Service de contrôle d’intégrité.

Partager via

Superviser des clusters avec le Service de contrôle d’intégrité

Prérequis

Historique des performances du cluster

Erreurs du Service de contrôle d’intégrité

Actions du Service de contrôle d’intégrité

Automation

Cycle de vie du disque

Mise hors service

Restauration de la résilience

Clignotement du témoin lumineux

Remplacement physique

Vérification

Pooling

Document des composants pris en charge

Utilisation

Sections

Exemple

Paramètres du Service de contrôle d’intégrité

Références supplémentaires

Commentaires

Ressources supplémentaires