Zobrazení chyb služby Health Service
Platí pro: Azure Local, verze 23H2 a 22H2; Windows Server 2022, Windows Server 2019
Služba Health Service neustále monitoruje váš cluster Prostory úložiště s přímým přístupem, aby zjistil problémy a vygeneroval chyby. Jedna rutina zobrazí všechny aktuální chyby, které vám umožní snadno ověřit stav nasazení bez toho, abyste se podívali na každou entitu nebo funkci. Chyby jsou navržené tak, aby byly přesné, snadno srozumitelné a bylo možné podle nich jednat.
Každá chyba obsahuje pět důležitých polí:
- Závažnost
- Popis problému
- Doporučené další kroky k vyřešení problému
- Zjištění informací o chybném prvku
- Jeho fyzické umístění (pokud existuje)
Příklad typické chyby:
Severity: MINOR
Reason: Connectivity has been lost to the physical disk.
Recommendation: Check that the physical disk is working and properly connected.
Part: Manufacturer Contoso, Model XYZ9000, Serial 123456789
Location: Seattle DC, Rack B07, Node 4, Slot 11
Poznámka:
Fyzické umístění je odvozené od chybně nakonfigurované domény. Další informace o doménách selhání najdete v tématu Rozpoznávání domény selhání. Pokud tyto informace nezadáte, bude pole umístění méně užitečné. Může například zobrazit pouze číslo slotu.
Analýza původní příčiny
Služba Health Service může vyhodnotit potenciální kauzalitu mezi chybujícími entitami a identifikovat a kombinovat chyby, které jsou následky stejného základního problému. Díky rozpoznání řetězového účinku budou sestavy stručnější. Pokud je například server mimo provoz, očekává se, že všechny jednotky v rámci serveru budou také bez připojení. Proto bude pro původní příčinu vyvolána pouze jedna chyba – v tomto případě server.
Použití v PowerShellu
Pokud chcete zobrazit všechny aktuální chyby v PowerShellu, spusťte následující rutinu:
Get-HealthFault
Tím se vrátí všechny chyby, které ovlivňují celkový Prostory úložiště s přímým přístupem cluster. Nejčastěji tyto chyby souvisejí s hardwarem nebo konfigurací. Pokud nedojde k žádným chybám, rutina nevrátí nic.
Poznámka:
V neprodukčním prostředí můžete s touto funkcí experimentovat sami tím, že aktivujete chyby sami. Můžete to například provést odebráním jednoho fyzického disku nebo vypnutím jednoho uzlu. Po zobrazení chyby znovu vložte fyzický disk nebo restartujte uzel, aby chyba zmizela.
Využití v .NET a C#
Tato část ukazuje, jak se připojit ke službě Health Service, používat zjišťování objektů a spouštět dotazy na chyby.
Propojit
Pro dotazování služby Health Service vytvoříte cimSession s clusterem. K tomu budete potřebovat některé věci, které jsou k dispozici pouze v plném rozsahu microsoft .NET, což znamená, že to nemůžete snadno udělat přímo z webové nebo mobilní aplikace. Ukázky kódu v této části používají jazyk C#, což je nejjednodušší volba pro tuto vrstvu přístupu k datům.
using System.Security;
using Microsoft.Management.Infrastructure;
public CimSession Connect(string Domain = "...", string Computer = "...", string Username = "...", string Password = "...")
{
SecureString PasswordSecureString = new SecureString();
foreach (char c in Password)
{
PasswordSecureString.AppendChar(c);
}
CimCredential Credentials = new CimCredential(
PasswordAuthenticationMechanism.Default, Domain, Username, PasswordSecureString);
WSManSessionOptions SessionOptions = new WSManSessionOptions();
SessionOptions.AddDestinationCredentials(Credentials);
Session = CimSession.Create(Computer, SessionOptions);
return Session;
}
Zadané uživatelské jméno by mělo být místním správcem cílového počítače.
Doporučujeme vytvořit řetězec SecureString hesla přímo ze vstupu uživatele v reálném čase, aby heslo nikdy nebyl uložen v paměti v nezašifrované podobě. To pomáhá zmírnit celou řadu problémů se zabezpečením. V praxi je ale pro účely vytváření prototypů běžné, jak je uvedeno výše.
Zjišťování objektů
Se zavedenou cimsession můžete dotazovat rozhraní WMI (Windows Management Instrumentation) v clusteru.
Než budete moct získat chyby nebo metriky, musíte získat instance několika relevantních objektů. Nejprve získejte MSFT_StorageSubSystem, který představuje Prostory úložiště s přímým přístupem v clusteru. Pomocí toho můžete získat všechny MSFT_StorageNode v clusteru a každý MSFT_Volume datových svazků. Nakonec potřebujete získat MSCluster_ClusterHealthService, samotnou službu Health Service.
CimInstance Cluster;
List<CimInstance> Nodes;
List<CimInstance> Volumes;
CimInstance HealthService;
public void DiscoverObjects(CimSession Session)
{
// Get MSFT_StorageSubSystem for Storage Spaces Direct
Cluster = Session.QueryInstances(@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageSubSystem")
.First(Instance => (Instance.CimInstanceProperties["FriendlyName"].Value.ToString()).Contains("Cluster"));
// Get MSFT_StorageNode for each cluster node
Nodes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageNode", null, "StorageSubSystem", "StorageNode").ToList();
// Get MSFT_Volumes for each data volume
Volumes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToVolume", null, "StorageSubSystem", "Volume").ToList();
// Get MSFT_StorageHealth itself
HealthService = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageHealth", null, "StorageSubSystem", "StorageHealth").First();
}
Jedná se o stejné objekty, které získáte v PowerShellu pomocí rutin, jako jsou Get-StorageSubSystem, Get-StorageNode a Get-Volume.
Ke všem stejným vlastnostem, které jsou popsané ve třídách rozhraní API služby Storage Management, máte přístup.
using System.Diagnostics;
foreach (CimInstance Node in Nodes)
{
// For illustration, write each node's Name to the console. You could also write State (up/down), or anything else!
Debug.WriteLine("Discovered Node " + Node.CimInstanceProperties["Name"].Value.ToString());
}
Chyby dotazů
Vyvolání diagnostiky za účelem získání aktuálních chyb v rozsahu cílové instance CimInstance, což může být cluster nebo jakýkoli svazek.
Úplný seznam chyb dostupných v každém oboru v systému Windows Server 2019 je zdokumentovaný dále v části Pokrytí .
public void GetFaults(CimSession Session, CimInstance Target)
{
// Set Parameters (None)
CimMethodParametersCollection FaultsParams = new CimMethodParametersCollection();
// Invoke API
CimMethodResult Result = Session.InvokeMethod(Target, "Diagnose", FaultsParams);
IEnumerable<CimInstance> DiagnoseResults = (IEnumerable<CimInstance>)Result.OutParameters["DiagnoseResults"].Value;
// Unpack
if (DiagnoseResults != null)
{
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
// TODO: Whatever you want!
}
}
}
Volitelné: MyFault – třída
Může mít smysl vytvořit a zachovat vlastní reprezentaci chyb. Třída MyFault například ukládá několik klíčových vlastností chyb, včetně Id chyby, které lze později použít k přidružení aktualizací, odebrání oznámení nebo odstranění duplicitních dat v případě, že se stejná chyba detekuje vícekrát.
public class MyFault {
public String FaultId { get; set; }
public String Reason { get; set; }
public String Severity { get; set; }
public String Description { get; set; }
public String Location { get; set; }
// Constructor
public MyFault(CimInstance DiagnoseResult)
{
CimKeyedCollection<CimProperty> Properties = DiagnoseResult.CimInstanceProperties;
FaultId = Properties["FaultId" ].Value.ToString();
Reason = Properties["Reason" ].Value.ToString();
Severity = Properties["PerceivedSeverity" ].Value.ToString();
Description = Properties["FaultingObjectDescription"].Value.ToString();
Location = Properties["FaultingObjectLocation" ].Value.ToString();
}
}
List<MyFault> Faults = new List<MyFault>;
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
Faults.Add(new Fault(DiagnoseResult));
}
Úplný seznam vlastností v každé chybě (DiagnosticResult) je zdokumentovaný později v části Vlastnosti chyby.
Události selhání
Když dojde k vytvoření, odebrání nebo aktualizaci chyb, služba Health Service vygeneruje události rozhraní WMI. To je nezbytné pro zachování stavu vaší aplikace v synchronizaci bez častého dotazování a můžou vám pomoct například s určením, kdy se mají odesílat e-mailová upozornění. K přihlášení k odběru těchto událostí používá následující ukázkový kód vzor návrhu pozorovatele.
Nejprve se přihlaste k odběru událostí MSFT_StorageFaultEvent .
public void ListenForFaultEvents()
{
IObservable<CimSubscriptionResult> Events = Session.SubscribeAsync(
@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageFaultEvent");
// Subscribe the Observer
FaultsObserver<CimSubscriptionResult> Observer = new FaultsObserver<CimSubscriptionResult>(this);
IDisposable Disposeable = Events.Subscribe(Observer);
}
Dále implementujte pozorovatele, jehož OnNext() metoda je vyvolána při každém vygenerování nové události.
Každá událost obsahuje changeType , která označuje, jestli je chyba vytvořená, odebraná nebo aktualizovaná, a příslušné ID chyby.
Kromě toho každá událost obsahuje všechny vlastnosti samotné chyby.
class FaultsObserver : IObserver
{
public void OnNext(T Event)
{
// Cast
CimSubscriptionResult SubscriptionResult = Event as CimSubscriptionResult;
if (SubscriptionResult != null)
{
// Unpack
CimKeyedCollection<CimProperty> Properties = SubscriptionResult.Instance.CimInstanceProperties;
String ChangeType = Properties["ChangeType"].Value.ToString();
String FaultId = Properties["FaultId"].Value.ToString();
// Create
if (ChangeType == "0")
{
Fault MyNewFault = new MyFault(SubscriptionResult.Instance);
// TODO: Whatever you want!
}
// Remove
if (ChangeType == "1")
{
// TODO: Use FaultId to find and delete whatever representation you have...
}
// Update
if (ChangeType == "2")
{
// TODO: Use FaultId to find and modify whatever representation you have...
}
}
}
public void OnError(Exception e)
{
// Handle Exceptions
}
public void OnCompleted()
{
// Nothing
}
}
Principy životního cyklu selhání
Chyby nejsou určeny k označení jako "viditelné" nebo vyřešené uživatelem. Vytvoří se, když služba Health Service zjistí problém a odeberou se automaticky až po tom, co služba Health Service nemůže problém sledovat. Obecně to odráží, že problém byl opraven.
V některých případech ale služba Health Service může chyby znovu najít, například po převzetí služeb při selhání, přerušované připojení atd. Z tohoto důvodu může být vhodné zachovat vlastní reprezentaci chyb, abyste mohli snadno duplikovat. To je zvlášť důležité, pokud odesíláte e-mailové výstrahy nebo ekvivalent.
Vlastnosti chyby
Následující tabulka obsahuje několik klíčových vlastností objektu selhání. Pro úplné schéma zkontrolujte třídu MSFT_StorageDiagnoseResult v storagewmi.mof.
Vlastnost | Příklad |
---|---|
Id chyby | {12345-12345-12345-12345-12345} |
FaultType | Microsoft.Health.FaultType.Volume.Capacity |
Důvod | "Svazek nemá volné místo." |
Vnímaná bezvědnost | 5 |
FaultingObjectDescription | Contoso XYZ9000 S.N. 123456789 |
FaultingObjectLocation | Rack A06, RU 25, Slot 11 |
Doporučené akce | {"Rozbalení svazku", "Migrace úloh do jiných svazků"} |
FaultId: Jedinečné ID v rámci jednoho clusteru.
Vnímanáeverita: VnímanáSeverita = { 4, 5, 6 } = { "Informační", "Upozornění" a "Chyba" } nebo ekvivalentní barvy, jako je modrá, žlutá a červená.
FaultingObjectDescription: Informace o částech hardwaru, obvykle prázdné pro softwarové objekty.
FaultingObjectLocation: Informace o umístění hardwaru, obvykle prázdné pro softwarové objekty.
Doporučené akce: Seznam doporučených akcí, které jsou nezávislé a v žádném konkrétním pořadí. Dnes je tento seznam často dlouhý 1.
Vlastnosti události selhání
Následující tabulka obsahuje několik klíčových vlastností události selhání. Pro úplné schéma zkontrolujte třídu MSFT_StorageFaultEvent v storagewmi.mof.
Všimněte si typu ChangeType, který označuje, jestli se chyba vytváří, odebírá nebo aktualizuje, a ID chyby. Událost obsahuje také všechny vlastnosti ovlivněné chyby.
Vlastnost | Příklad |
---|---|
ChangeType | 0 |
Id chyby | {12345-12345-12345-12345-12345} |
FaultType | Microsoft.Health.FaultType.Volume.Capacity |
Důvod | "Svazek nemá volné místo." |
Vnímaná bezvědnost | 5 |
FaultingObjectDescription | Contoso XYZ9000 S.N. 123456789 |
FaultingObjectLocation | Rack A06, RU 25, Slot 11 |
Doporučené akce | {"Rozbalení svazku", "Migrace úloh do jiných svazků"} |
ChangeType ChangeType = { 0, 1, 2 } = { "Create", "Remove", "Update" }.
Disponibilita
Ve Windows Serveru 2019 a Azure Local poskytuje služba Health Service následující pokrytí chyb:
Fyzický disk (31)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedMedia
- Závažnost: Upozornění
- Důvod: Fyzický disk se nezdařil.
- RecommendedAction: "Replace the physical disk" (Nahrazení fyzického disku)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.LostCommunication
- Závažnost: Upozornění
- Důvod: Připojení k fyzickému disku bylo ztraceno.
- RecommendedAction: Zkontrolujte, jestli fyzický disk funguje a je správně připojený.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.Unresponsive
- Závažnost: Upozornění
- Důvod: Fyzický disk vykazuje opakující se nereagující.
- RecommendedAction: "Replace the physical disk" (Nahrazení fyzického disku)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.PredictiveFailure
- Závažnost: Upozornění
- Důvod: Chyba fyzického disku se předpovídá, že brzy dojde k chybě.
- RecommendedAction: "Replace the physical disk" (Nahrazení fyzického disku)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedHardware
- Závažnost: Upozornění
- Důvod: Fyzický disk je v karanténě, protože ho váš dodavatel řešení nepodporuje.
- RecommendedAction: "Replace the physical disk with supported hardware" (Nahrazení fyzického disku podporovaným hardwarem)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedFirmware
- Závažnost: Upozornění
- Důvod: Fyzický disk je v karanténě, protože jeho verze firmwaru není podporována dodavatelem vašeho řešení.
- RecommendedAction: Aktualizace firmwaru na fyzickém disku na cílovou verzi
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnrecognizedMetadata
- Závažnost: Upozornění
- Důvod: Fyzický disk nemá nerozpoznaná meta data.
- RecommendedAction: Tento disk může obsahovat data z neznámého fondu úložiště. Nejprve se ujistěte, že na tomto disku nejsou žádná užitečná data, a pak obnovte disk."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedFirmwareUpdate
- Závažnost: Upozornění
- Důvod: Pokus o aktualizaci firmwaru na fyzickém disku se nezdařil.
- RecommendedAction: Zkuste použít jiný binární soubor firmwaru.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblFailedMedia
- Závažnost: Upozornění
- Důvod: Jednotka selhala.
- RecommendedAction: "Replace the drive" (Nahradit jednotku)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblUnresponsive
- Závažnost: Upozornění
- Důvod: Fyzický disk vykazuje opakující se nereagující.
- RecommendedAction: "Replace the physical disk" (Nahrazení fyzického disku)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlock
- Závažnost: Upozornění
- Důvod: "Jednotka během zápisu hlásila chybné bloky. Občasný chybný blok je normální, ale příliš mnoho může znamenat, že jednotka nefunguje správně, poškozena nebo začíná selhat."
- RecommendedAction: "Pokud se to stále děje nebo sledujete snížení výkonu, zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlockRead
- Závažnost: Upozornění
- Důvod: "Jednotka během čtení hlásila chybné bloky. Občasný chybný blok je normální, ale příliš mnoho může znamenat, že jednotka nefunguje správně, poškozena nebo začíná selhat."
- RecommendedAction: "Pokud se to stále děje nebo sledujete snížení výkonu, zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoRetry
- Závažnost: Upozornění
- Důvod: "Jednotka potřebovala více pokusů o čtení nebo zápis. Pokud se to bude opakovat, může to znamenat, že jednotka nefunguje správně, poškozená nebo začíná selhat."
- RecommendedAction: "Pokud se to stále děje nebo sledujete snížení výkonu, zvažte nahrazení jednotky."
Poznámka:
Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.MarginFailure.EventBased.IoRetry.Enabled na hodnotu true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoFailure
- Závažnost: Upozornění
- Důvod: Jednotka se nepodařilo číst nebo zapisovat. Pokud se to bude opakovat, může to znamenat, že jednotka nefunguje správně, poškozená nebo začíná selhat."
- RecommendedAction: "Pokud se to stále děje nebo sledujete snížení výkonu, zvažte nahrazení jednotky."
Poznámka:
Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.MarginFailure.EventBased.IoFailure.Enabled na hodnotu true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureSmart
- Závažnost: Upozornění
- Důvod: "Jednotka hlásila následující potenciální problémy s Windows pomocí technologie SMART (self-monitoring, analysis and reporting Technology)"
- RecommendedAction: "Pokud se to stále děje nebo sledujete snížení výkonu, zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureHighWear
- Závažnost: Upozornění
- Důvod: "Jednotka dosáhla vysokého procenta své hodnocené výdrže zápisu. Jednotka se může stát jen pro čtení, což znamená, že nemůže provádět žádné další zápisy, když dosáhne 100 % své jmenovité vytrvalosti. Podívejte se na datový list nebo požádejte výrobce o další podrobnosti o ratingu vytrvalosti a chování konce životnosti."
- RecommendedAction: "Pokud se to stále děje nebo sledujete snížení výkonu, zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureReadOnly
- Závažnost: Upozornění
- Důvod: "Jednotka dosáhla 100 % své výdrže jmenovitého zápisu a je nyní jen pro čtení, což znamená, že nemůže provádět žádné další zápisy. Jednotky SSD se opotřebují po určitém počtu zápisů, které se liší v závislosti na hodnocení výdrže jednotky. Podrobnosti najdete v specifikacích pohonu nebo se výrobce zeptejte na hodnocení vytrvalosti a chování koncové životnosti."
- RecommendedAction: "Pokud se to stále děje nebo sledujete snížení výkonu, zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.SlowestIO
- Závažnost: Upozornění
- Důvod: Jednotka má vysokou latenci ve špičce.
- RecommendedAction: "Monitorujte výkon jednotky a zvažte nahrazení jednotky."
Poznámka:
Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled na hodnotu true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.AverageIO
- Závažnost: Upozornění
- Důvod: Jednotka má vysokou průměrnou latenci.
- RecommendedAction: "Monitorujte výkon jednotky a zvažte nahrazení jednotky."
Poznámka:
Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled na hodnotu true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.AverageIO
- Závažnost: Upozornění
- Důvod: Jednotka má vysokou průměrnou latenci.
- RecommendedAction: "Monitorujte výkon jednotky a zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.SlowestIO
- Závažnost: Upozornění
- Důvod: Jednotka má vysokou latenci ve špičce.
- RecommendedAction: "Monitorujte výkon jednotky a zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.AverageIO
- Závažnost: Upozornění
- Důvod: Jednotka má velký počet chyb.
- RecommendedAction: "Monitorujte výkon jednotky a zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.Outlier.AverageIO
- Závažnost: Upozornění
- Důvod: Jednotka má velký počet chyb.
- RecommendedAction: "Monitorujte výkon jednotky a zvažte nahrazení jednotky."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly
- Závažnost: Upozornění
- Důvod: "Jednotka mezipaměti selhala u některých čtení nebo zápisů, takže kvůli ochraně vašich dat, která jsme přesunuli na úložné jednotky."
- RecommendedAction: "Replace the drive or try to clear and reset it."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.Draining
- Závažnost: Upozornění
- Důvod: "Jednotka mezipaměti selhala u některých čtení nebo zápisů. Abychom ochránili vaše data, přestali jsme zapisovat na jednotku mezipaměti a snažíme se přesunout data na jednotky kapacity.
- RecommendedAction: "Hang on while we move the data" (Při přesouvání dat se zablokuje).
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.FailedDrain
- Závažnost: Upozornění
- Důvod: Některá data na jednotce mezipaměti se nedají číst, což nám brání v jejich přesunu na jednotky kapacity.
- RecommendedAction: "Replace the drive" (Nahradit jednotku)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.RotationFailure
- Závažnost: Upozornění
- Důvod: Pokus o otočení šifrovacího klíče SED na nový výchozí se nezdařil.
- RecommendedAction: "Zkontrolujte, jestli jednotka funguje a správně připojená. Pokud se jednotka nepovedla, nahraďte ji. Jakmile je jednotka v pořádku, restartujte obměnu šifrovacího klíče SED.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefault
- Závažnost: Upozornění
- Důvod: Fyzický disk má šifrovací klíč SED, ale neodpovídá aktuálnímu výchozímu klíči.
- RecommendedAction: "Initiate SED encryption key rotation" (Inicializovat obměnu šifrovacího klíče SED).
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefined
- Závažnost: Upozornění
- Důvod: Pro jednotku není definován výchozí šifrovací klíč SED.
- RecommendedAction: "Set a default SED encryption key" (Nastavení výchozího šifrovacího klíče SED)
FaultType: Microsoft.Health.FaultType.StorageScaleUnit.SedEncKey.RotationTimeout
- Závažnost: Upozornění
- Důvod: Nepodařilo se dokončit obměnu šifrovacího klíče SED na serveru před vypršením časového limitu.
- RecommendedAction: Ujistěte se, že je server dostupný a že jsou všechny fyzické disky v pořádku.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.DriveArriveFailure
- Závažnost: Upozornění
- Důvod: Dotazy fyzického disku selhávají. "
- RecommendedAction: "Ověřte spolehlivost sítě. Pokud problém přetrvává, zvažte nahrazení zařízení."
Virtuální disk (3)
FaultType: Microsoft.Health.FaultType.VirtualDisks.NeedsRepair
- Závažnost: Informační
- Důvod: Některá data na tomto svazku nejsou plně odolná. Zůstane přístupný."
- RecommendedAction: "Obnovení odolnosti dat"
FaultType: Microsoft.Health.FaultType.VirtualDisks.Detached
- Závažnost: Kritická
- Důvod: "Svazek je nepřístupný. Některá data mohou být ztracena."
- RecommendedAction: "Zkontrolujte fyzické nebo síťové připojení všech úložných zařízení. Možná budete muset provést obnovení ze zálohy."
FaultType: Microsoft.Health.FaultType.VirtualDisks.NoRedundancy
- Závažnost: Kritická
- Důvod: Všechny kopie dat nejsou pro oblast virtuálního disku k dispozici. Úloha může být přerušena a může dojít k selhání vstupně-výstupních operací."
- RecommendedAction: "Pokud probíhá operace údržby, pozastavte ho a obnovte přístup ke všem úložišti, dokud se úložiště ne stabilizuje."
Kapacita fondu (2)
FaultType: Microsoft.Health.FaultType.StoragePool.TransactionAndCleanupFailure
- Závažnost: Upozornění
- Důvod: Fond úložiště nemůže zapisovat do kvora zařízení metadat. Úloha může být přerušena a může dojít k selhání vstupně-výstupních operací."
- RecommendedAction: "Pokud probíhá operace údržby, pozastavte ho a obnovte přístup ke všem úložišti, dokud se úložiště ne stabilizuje."
FaultType: Microsoft.Health.FaultType.StoragePool.PoolCapacityThresholdExceed
- Závažnost: Upozornění
- Důvod: Fond úložiště nemá kapacitu.
- RecommendedAction: "Add additional capacity to the storage pool or free up capacity" (Přidat další kapacitu do fondu úložiště nebo uvolnit kapacitu).
Kapacita svazku (5)1
FaultType: Microsoft.Health.FaultType.Volume.Capacity
- Závažnost: Upozornění
- Důvod: "Svazek nemá volné místo.".
- RecommendedAction: "Rozbalte svazek nebo migrujte úlohy na jiné svazky".
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Correctable
- Závažnost: Upozornění
- Důvod: "Systém souborů zjistil chybu kontrolního součtu a dokázal ji opravit."
- RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh může být špatná. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable
- Závažnost: Upozornění
- Důvod: "Systém souborů zjistil chybu kontrolního součtu a nemohl ji opravit."
- RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh může být špatná. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemoved
- Závažnost: Upozornění
- Důvod: "Systém souborů zjistil poškození souboru nebo složky. Soubor nebo složka byly odebrány z oboru názvů systému souborů."
- RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh může být špatná. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemovalFailure
- Závažnost: Upozornění
- Důvod: "Systém souborů zjistil poškození souboru nebo složky. Možná se nepovedlo odebrat systém souborů z oboru názvů systému souborů."
- RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh může být špatná. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."
Server (12)
FaultType: Microsoft.Health.FaultType.Server.Down
- Závažnost: Kritická
- Důvod: Server není dostupný.
- RecommendedAction: "Start or replace server" (Spustit nebo nahradit server).
FaultType: Microsoft.Health.FaultType.Server.Isolated
- Závažnost: Kritická
- Důvod: Server je izolovaný od clusteru kvůli problémům s připojením.
- RecommendedAction: Pokud izolace přetrvává, zkontrolujte sítě nebo migrujte úlohy do jiných uzlů.
FaultType: Microsoft.Health.FaultType.Server.Quarantined
- Závažnost: Kritická
- Důvod: Server je v karanténě clusteru kvůli opakovaným selháním.
- RecommendedAction: "Replace the server or fix the network" (Nahrazení serveru nebo oprava sítě)
FaultType: Microsoft.Health.FaultType.Server.Temperature
- Závažnost: Upozornění
- Důvod: "Senzor teploty serveru vyvolal upozornění."
- RecommendedAction: "Check the server temperature" (Kontrola teploty serveru).
FaultType: Microsoft.Health.FaultType.Server.Storage.Degraded
- Závažnost: Upozornění
- Důvod: "Server má úložiště, které není úplné nebo aktuální, takže ho musíme synchronizovat s daty z jiných serverů v clusteru. To je normální po restartování serveru nebo selhání jednotky."
- RecommendedAction: Při synchronizaci úložiště se zablokuje. Neodebíjejte žádné jednotky ani nerestartujte žádné servery v clusteru, dokud nepotvrdíme, že je synchronizace dokončená."
FaultType: Microsoft.Health.FaultType.Node.CPUOverloaded
- Závažnost: Upozornění
- Důvod: "Využití procesoru serveru je konzistentně nad prahovou hodnotou."
- RecommendedAction: "Přesunutí virtuálních počítačů na jiné servery s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity do clusteru (obvykle přidáním serverů)."
FaultType: Microsoft.Health.FaultType.Node.VCPUToLCPU
- Závažnost: Upozornění
- Důvod: "Poměr virtuálních procesorů k logickým procesorům (vlákenm) na tomto serveru překročil nakonfigurovanou prahovou hodnotu."
- RecommendedAction: Přesun virtuálních počítačů na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity do clusteru.
FaultType: Microsoft.Health.FaultType.Node.LowFreeRam
- Závažnost: Upozornění
- Důvod: "Dostupná paměť je nižší než nakonfigurovaná prahová hodnota".
- RecommendedAction: Přesun virtuálních počítačů na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity do clusteru.
FaultType: Microsoft.Health.FaultType.Node.HighRootPartitionMemoryUsage
- Závažnost: Upozornění
- Důvod: "Windows Server spotřebovává velké množství fyzické paměti, což překračuje nakonfigurovanou prahovou hodnotu."
- RecommendedAction: "Kontrola procesů nebo aplikací, které spotřebovávají příliš mnoho paměti, přesunutí virtuálních počítačů na jiné servery nebo přidání paměti na servery."
FaultType: Microsoft.Health.FaultType.Node.TooHighCpuReservation
- Závažnost: Upozornění
- Důvod: Kombinovaná rezervace procesoru virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
- RecommendedAction: "Zvažte přesunutí virtuálních počítačů nebo snížení jejich rezervací procesoru".
FaultType: Microsoft.Health.FaultType.Node.TooHighMemoryUseAfterReclamation
- Závažnost: Upozornění
- Důvod: Kombinované přiřazení paměti virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
- RecommendedAction: "Zvažte přesunutí virtuálních počítačů nebo snížení přiřazené paměti".
FaultType: Microsoft.Health.FaultType.Node.SustainedHighCpuUsage
- Závažnost: Upozornění
- Důvod: Server má využití procesoru konzistentně překračující prahovou hodnotu.
- RecommendedAction: Přesun virtuálních počítačů na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity.
Cluster (6)
FaultType: Microsoft.Health.FaultType.ClusterQuorumWitness.Error
- Závažnost: Kritická
- Důvod: "Cluster je jedním selháním serveru, který se neodejde dolů."
- RecommendedAction: "Zkontrolujte prostředek určující kopii a podle potřeby ho restartujte. Spusťte nebo nahraďte servery, které selhaly."
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReport.Failed
- Závažnost: Kritická
- Důvod: Došlo k problémům s ověřením clusteru.
- RecommendedAction: "Ověření clusteru zjistilo selhání v některých kategoriích testů. Podívejte se na sestavu ověření clusteru.
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReportDcb.Failed
- Závažnost: Kritická
- Důvod: "Validate-DCB zjistil problémy".
- RecommendedAction: "Validate-DCB zjistil chyby sítě. Viz sestava ověření DCB.
FaultType: Microsoft.Health.FaultType.Cluster.TooHighCpuReservation
- Závažnost: Kritická
- Důvod: Kombinovaná rezervace procesoru virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
- RecommendedAction: "Zvažte přesunutí virtuálních počítačů nebo snížení jejich rezervací procesoru".
FaultType: Microsoft.Health.FaultType.Cluster.TooHighMemoryUseAfterReclamation
- Závažnost: Kritická
- Důvod: Kombinované přiřazení paměti virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
- RecommendedAction: "Zvažte přesunutí virtuálních počítačů nebo snížení přiřazené paměti".
FaultType: Microsoft.Health.FaultType.Cluster.SustainedHighCpuUsage
- Závažnost: Kritická
- Důvod: Server má využití procesoru konzistentně překračující prahovou hodnotu.
- RecommendedAction: Přesun virtuálních počítačů na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity.
Síťový adaptér/rozhraní (6)
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disconnected
- Závažnost: Upozornění
- Důvod: "Došlo k odpojení síťového rozhraní."
- RecommendedAction: "Znovu připojit síťový kabel".
FaultType: Microsoft.Health.FaultType.NetworkInterface.Missing
- Závažnost: Upozornění
- Důvod: Server {server} neobsahuje síťové adaptéry připojené k síti clusteru {cluster network}.
- RecommendedAction: "Connect the server to the missing cluster network" (Připojit server k chybějící síti clusteru).
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Hardware
- Závažnost: Upozornění
- Důvod: "Síťové rozhraní mělo selhání hardwaru."
- RecommendedAction: "Replace the network interface adapter" (Nahrazení adaptéru síťového rozhraní)
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disabled
- Závažnost: Upozornění
- Důvod: "Síťové rozhraní {síťové rozhraní} není povolené a nepoužívá se."
- RecommendedAction: "Enable the network interface" (Povolit síťové rozhraní).
FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Alert
- Závažnost: Upozornění
- Důvod: "Cluster zjistil problémy s připojením k síti, které brání správnému fungování Prostory úložiště s přímým přístupem."
- RecommendedAction: Ověřte, že je vaše síť správně nakonfigurovaná a funkční. Pokud používáte RDMA over Converged Ethernet (RoCE), ověřte, jestli jsou správně a konzistentně nakonfigurované přemostění datového centra (DCB), rozšířená přenosová služba (ETS) a řízení toku priority (PFC) na každém uzlu clusteru a fyzickém přepínači. Pokud nevíte, jak to udělat, požádejte dodavatele nebo někoho, komu důvěřujete, aby vám pomohl."
FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Disabled
- Závažnost: Upozornění
- Důvod: "Cluster zjistil problémy s připojením k síti, které brání správnému fungování Prostory úložiště s přímým přístupem. Kvůli zajištění konzistentního výkonu a bezpečnosti dat se Prostory úložiště s přímým přístupem zastavilo používání vzdáleného přímého přístupu do paměti (RDMA), i když je dostupný a povolený hardware podporující RDMA. Provoz úložiště bude pokračovat v toku, ale s nižším výkonem pomocí protokolu TCP/IP."
- RecommendedAction: "Ověřte, že je vaše síť správně nakonfigurovaná a funkční, a pak znovu zapněte RDMA. Pokud používáte RDMA over Converged Ethernet (RoCE), ověřte, jestli jsou správně a konzistentně nakonfigurované přemostění datového centra (DCB), rozšířená přenosová služba (ETS) a řízení toku priority (PFC) na každém uzlu clusteru a fyzickém přepínači. Pokud nevíte, jak to udělat, požádejte dodavatele nebo někoho, komu důvěřujete, aby vám pomohl. Pokud chcete pokračovat v vypnuté funkci RDMA, můžete tuto výstrahu zavřít."
Skříň (6)
FaultType: Microsoft.Health.FaultType.StorageEnclosure.LostCommunication
- Závažnost: Upozornění
- Důvod: Komunikace se ztratila do skříně úložiště.
- RecommendedAction: "Start or replace the storage enclosure" (Spustit nebo nahradit skříň úložiště).
FaultType: Microsoft.Health.FaultType.StorageEnclosure.FanError
- Závažnost: Upozornění
- Důvod: "Ventilátor na pozici {position} skříně úložiště selhal."
- RecommendedAction: "Výměna ventilátoru ve skříni úložiště"
FaultType: Microsoft.Health.FaultType.StorageEnclosure.CurrentSensorError
- Závažnost: Upozornění
- Důvod: Aktuální snímač na pozici {position} skříně úložiště selhal.
- RecommendedAction: "Replace a current sensor in the storage enclosure" (Výměna aktuálního senzoru v krytu úložiště)
FaultType: Microsoft.Health.FaultType.StorageEnclosure.VoltageSensorError
- Závažnost: Upozornění
- Důvod: "Snímač napětí na pozici {position} skříně úložiště selhal."
- RecommendedAction: "Výměna senzoru napětí v krytu úložiště"
FaultType: Microsoft.Health.FaultType.StorageEnclosure.IoControllerError
- Závažnost: Upozornění
- Důvod: Vstupně-výstupní kontroler na pozici {position} skříně úložiště selhal.
- RecommendedAction: "Nahrazení vstupně-výstupního kontroleru ve skříni úložiště"
FaultType: Microsoft.Health.FaultType.StorageEnclosure.TemperatureSensorError
- Závažnost: Upozornění
- Důvod: "Senzor teploty na pozici {position} skříně úložiště selhal."
- RecommendedAction: "Replace a temperature sensor in the storage box" (Výměna senzoru teploty v krytu úložiště)
Zavedení firmwaru (3)
FaultType: Microsoft.Health.FaultType.FaultDomain.FailedMaintenanceMode
- Závažnost: Upozornění
- Důvod: Při zavádění firmwaru se v současné době nedaří provést pokrok.
- RecommendedAction: Ověřte, že jsou všechny prostory úložiště v pořádku a že doména selhání není aktuálně v režimu údržby.
FaultType: Microsoft.Health.FaultType.FaultDomain.FirmwareVerifyVersionFailed
- Závažnost: Upozornění
- Důvod: Zavedení firmwaru bylo zrušeno kvůli nečitelným nebo neočekávaným informacím o verzi firmwaru po instalaci aktualizace firmwaru.
- RecommendedAction: Restartování firmwaru se spustí po vyřešení problému s firmwarem.
FaultType: Microsoft.Health.FaultType.FaultDomain.TooManyFailedUpdates
- Závažnost: Upozornění
- Důvod: "Zavedení firmwaru bylo zrušeno kvůli příliš velkému počtu fyzických disků, které selhávají při pokusu o aktualizaci firmwaru."
- RecommendedAction: Restartování firmwaru se spustí po vyřešení problému s firmwarem.
QoS úložiště (3)2
FaultType: Microsoft.Health.FaultType.StorQos.InsufficientThroughput
- Závažnost: Upozornění
- Důvod: Propustnost úložiště není dostatečná pro splnění rezerv.
- RecommendedAction: "Reconfigure Storage QoS policies" (Změna konfigurace zásad kvality služby úložiště)
FaultType: Microsoft.Health.FaultType.StorQos.LostCommunication
- Závažnost: Upozornění
- Důvod: Správce zásad kvality služby úložiště ztratil komunikaci se svazkem.
- RecommendedAction: "Restartujte uzly {nodes}"
FaultType: Microsoft.Health.FaultType.StorQos.MisconfiguredFlow
- Závažnost: Upozornění
- Důvod: Jeden nebo více příjemců úložiště (obvykle virtuálních počítačů) používá neexistující zásadu s ID {id}.
- RecommendedAction: Znovu vytvořte všechny chybějící zásady kvality služby úložiště.
Virtuální počítač/virtuální pevný disk (7)
FaultType: Microsoft.Health.FaultType.Vm.BadHealthState
- Závažnost: Upozornění
- Důvod: Stav virtuálního počítače není v pořádku.
- RecommendedAction: "Troubleshoot the virtual machine" (Řešení potíží s virtuálním počítačem).
FaultType: Microsoft.Health.FaultType.Vm.BadOperationalStatus
- Závažnost: Upozornění
- Důvod: Provozní stav virtuálního počítače není v pořádku.
- RecommendedAction: "Troubleshoot the virtual machine" (Řešení potíží s virtuálním počítačem).
FaultType: Microsoft.Health.FaultType.Vm.GuestUnhealthy
- Závažnost: Upozornění
- Důvod: Hostovaný operační systém ve virtuálním počítači hlásí stav, který není v pořádku.
- RecommendedAction: "Troubleshoot the virtual machine" (Řešení potíží s virtuálním počítačem).
FaultType: Microsoft.Health.FaultType.Vm.ConfigIsOffline
- Závažnost: Upozornění
- Důvod: Prostředek konfigurace virtuálního počítače je offline, což znamená, že virtuální počítač nejde spravovat.
- RecommendedAction: "Bring the virtual machine configuration online" (Přeneste konfiguraci virtuálního počítače do režimu online).
FaultType: Microsoft.Health.FaultType.Vm.NotRespondingToControlCodes
- Závažnost: Upozornění
- Důvod: Virtuální počítač nereaguje na kódy řízení clusteru.
- RecommendedAction: "Kontrola stavu prostředku clusteru virtuálního počítače".
FaultType: Microsoft.Health.FaultType.Vm.IsNearMemoryLimit
- Závažnost: Upozornění
- Důvod: Virtuální počítač potřebuje více nakonfigurované maximální paměti.
- RecommendedAction: "Zkontrolujte procesy nebo aplikace, které spotřebovávají příliš mnoho paměti, nebo zvažte zvýšení maximální paměti."
FaultType: Microsoft.Health.FaultType.Vhd.IsNearlyFull
- Závažnost: Upozornění
- Důvod: Virtuální pevný disk dosáhl své kapacity. Do něj nelze zapisovat žádná další data, což může negativně ovlivnit virtuální počítače.
- RecommendedAction: Změna velikosti virtuálního pevného disku nebo odstranění nežádoucích souborů
1 Označuje, že svazek dosáhl 80 % plné (menší závažnost) nebo 90 % plné (hlavní závažnost). 2 Označuje, že některé virtuální pevné disky na svazku nesplnily minimální počet vstupně-výstupních operací za sekundu za více než 10 % (menší), 30 % (hlavní) nebo 50 % (kritické) 24hodinové okno.
Poznámka:
Stav součástí skříně úložiště, jako jsou ventilátory, napájecí zdroje a senzory, se odvozuje ze služby SCSI Enclosure Services (SES). Pokud dodavatel tyto informace neposkytuje, nemůže je služba Health Service zobrazit.