Просмотр ошибок службы работоспособности
Применимо к: Локальные версии Azure, версии 23H2 и 22H2; Windows Server 2022, Windows Server 2019
Служба работоспособности постоянно отслеживает кластер Локальные дисковые пространства для обнаружения проблем и создания ошибок. Один командлет отображает все текущие ошибки, что позволяет легко проверить работоспособность развертывания, не глядя на каждую сущность или функцию в свою очередь. Все сообщения об ошибках дают точную информацию, которую легко понять и по которой можно выполнить конкретные действия.
Каждая ошибка содержит пять важных полей:
- Важность
- Описание проблемы
- Рекомендуемые дальнейшие действия по устранению проблемы
- Сведений об идентификации проблемной сущности
- Физическое расположение (если применимо)
Вот пример распространенной ошибки:
Severity: MINOR
Reason: Connectivity has been lost to the physical disk.
Recommendation: Check that the physical disk is working and properly connected.
Part: Manufacturer Contoso, Model XYZ9000, Serial 123456789
Location: Seattle DC, Rack B07, Node 4, Slot 11
Примечание.
Физическое расположение основывается на конфигурации домена сбоя. Дополнительные сведения о доменах сбоя см. в разделе "Осведомленность о домене сбоя". Если вы не предоставляете эти сведения, поле расположения будет менее полезным. Например, он может отображать только номер слота.
Анализ первопричин
Служба работоспособности может оценить потенциальную причинность между сущностями сбоя для выявления и объединения ошибок, которые являются последствиями одной и той же базовой проблемы. Выявление таких цепочек влияния позволяет снизить объемы выводимой информации. Например, если сервер отключен, ожидается, что все диски на сервере также не подключены. Поэтому для первопричины возникает только одна ошибка — в данном случае сервер.
Использование в PowerShell
Чтобы просмотреть текущие ошибки в PowerShell, выполните следующий командлет:
Get-HealthFault
Это возвращает все ошибки, влияющие на общий кластер Локальные дисковые пространства. Чаще всего эти ошибки связаны с оборудованием или конфигурацией. Если ошибки отсутствуют, командлет возвращает ничего.
Примечание.
В нерабородной среде и в вашей собственной опасности вы можете экспериментировать с этой функцией, активируя ошибки самостоятельно. Например, это можно сделать, удалив один физический диск или завершив работу одного узла. После появления сбоя повторно вставьте физический диск или перезапустите узел, чтобы исчезнуть ошибку.
Использование в .NET и C#
В этом разделе показано, как подключиться к служба работоспособности, использовать объекты обнаружения и выполнять запросы сбоя.
Connect
Чтобы запросить служба работоспособности, необходимо установить CimSession с кластером. Для этого вам потребуются некоторые вещи, которые доступны только в полной версии Microsoft .NET, то есть вы не можете сделать это непосредственно из веб-приложения или мобильного приложения. Примеры кода в этом разделе используют C#, самый простой выбор для этого уровня доступа к данным.
using System.Security;
using Microsoft.Management.Infrastructure;
public CimSession Connect(string Domain = "...", string Computer = "...", string Username = "...", string Password = "...")
{
SecureString PasswordSecureString = new SecureString();
foreach (char c in Password)
{
PasswordSecureString.AppendChar(c);
}
CimCredential Credentials = new CimCredential(
PasswordAuthenticationMechanism.Default, Domain, Username, PasswordSecureString);
WSManSessionOptions SessionOptions = new WSManSessionOptions();
SessionOptions.AddDestinationCredentials(Credentials);
Session = CimSession.Create(Computer, SessionOptions);
return Session;
}
Предоставленное имя пользователя должно быть локальным администратором целевого компьютера.
Рекомендуется создать пароль SecureString непосредственно из ввода пользователем в режиме реального времени, чтобы пароль никогда не храним в памяти в виде ясного текста. Это помогает устранить различные проблемы безопасности. Но на практике построение его, как описано выше, распространено для прототипирования целей.
Обнаружение объектов
Установив CimSession, вы можете запросить инструментарий управления Windows (WMI) в кластере.
Прежде чем получить ошибки или метрики, необходимо получить экземпляры нескольких соответствующих объектов. Сначала получите MSFT_StorageSubSystem, представляющую Локальные дисковые пространства в кластере. С помощью этого можно получить все MSFT_StorageNode в кластере и каждый MSFT_Volume томов данных. Наконец, необходимо получить MSCluster_ClusterHealthService, сам служба работоспособности.
CimInstance Cluster;
List<CimInstance> Nodes;
List<CimInstance> Volumes;
CimInstance HealthService;
public void DiscoverObjects(CimSession Session)
{
// Get MSFT_StorageSubSystem for Storage Spaces Direct
Cluster = Session.QueryInstances(@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageSubSystem")
.First(Instance => (Instance.CimInstanceProperties["FriendlyName"].Value.ToString()).Contains("Cluster"));
// Get MSFT_StorageNode for each cluster node
Nodes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageNode", null, "StorageSubSystem", "StorageNode").ToList();
// Get MSFT_Volumes for each data volume
Volumes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToVolume", null, "StorageSubSystem", "Volume").ToList();
// Get MSFT_StorageHealth itself
HealthService = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageHealth", null, "StorageSubSystem", "StorageHealth").First();
}
Это те же объекты, которые вы получаете в PowerShell с помощью командлетов Get-StorageSubSystem, Get-StorageNode и Get-Volume.
Вы можете получить доступ ко всем тем же свойствам, которые описаны в классах API управления хранилищами.
using System.Diagnostics;
foreach (CimInstance Node in Nodes)
{
// For illustration, write each node's Name to the console. You could also write State (up/down), or anything else!
Debug.WriteLine("Discovered Node " + Node.CimInstanceProperties["Name"].Value.ToString());
}
Ошибки запросов
Вызовите диагностику для получения текущих ошибок в целевом CimInstance, который может быть кластером или любым томом.
Полный список сбоев, доступных в каждой области в Windows Server 2019, описан далее в разделе "Покрытие ".
public void GetFaults(CimSession Session, CimInstance Target)
{
// Set Parameters (None)
CimMethodParametersCollection FaultsParams = new CimMethodParametersCollection();
// Invoke API
CimMethodResult Result = Session.InvokeMethod(Target, "Diagnose", FaultsParams);
IEnumerable<CimInstance> DiagnoseResults = (IEnumerable<CimInstance>)Result.OutParameters["DiagnoseResults"].Value;
// Unpack
if (DiagnoseResults != null)
{
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
// TODO: Whatever you want!
}
}
}
Необязательный: класс MyFault
Может потребоваться создать и сохранить собственное представление ошибок. Например, класс MyFault хранит несколько ключевых свойств ошибок, включая FaultId, которые можно использовать позже для связывания обновлений, удаления уведомлений или дедупликации в случае обнаружения одной и той же ошибки несколько раз.
public class MyFault {
public String FaultId { get; set; }
public String Reason { get; set; }
public String Severity { get; set; }
public String Description { get; set; }
public String Location { get; set; }
// Constructor
public MyFault(CimInstance DiagnoseResult)
{
CimKeyedCollection<CimProperty> Properties = DiagnoseResult.CimInstanceProperties;
FaultId = Properties["FaultId" ].Value.ToString();
Reason = Properties["Reason" ].Value.ToString();
Severity = Properties["PerceivedSeverity" ].Value.ToString();
Description = Properties["FaultingObjectDescription"].Value.ToString();
Location = Properties["FaultingObjectLocation" ].Value.ToString();
}
}
List<MyFault> Faults = new List<MyFault>;
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
Faults.Add(new Fault(DiagnoseResult));
}
Полный список свойств в каждой ошибке (DiagnoseResult) описан далее в разделе свойств сбоя.
События сбоя
При создании, удалении или обновлении ошибок служба работоспособности создает события WMI. Это важно для поддержания состояния приложения в синхронизации без частого опроса и может помочь в таких случаях, как определить, когда отправлять оповещения электронной почты, например. Для подписки на эти события в следующем примере кода используется шаблон конструктора наблюдателя.
Сначала подпишитесь на события MSFT_StorageFaultEvent .
public void ListenForFaultEvents()
{
IObservable<CimSubscriptionResult> Events = Session.SubscribeAsync(
@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageFaultEvent");
// Subscribe the Observer
FaultsObserver<CimSubscriptionResult> Observer = new FaultsObserver<CimSubscriptionResult>(this);
IDisposable Disposeable = Events.Subscribe(Observer);
}
Затем реализуйте наблюдатель, метод OnNext() которого вызывается при создании нового события.
Каждое событие содержит ChangeType , указывающее, создается ли ошибка, удаляется или обновляется, а также соответствующий идентификатор сбоя.
Кроме того, каждое событие содержит все свойства самого сбоя.
class FaultsObserver : IObserver
{
public void OnNext(T Event)
{
// Cast
CimSubscriptionResult SubscriptionResult = Event as CimSubscriptionResult;
if (SubscriptionResult != null)
{
// Unpack
CimKeyedCollection<CimProperty> Properties = SubscriptionResult.Instance.CimInstanceProperties;
String ChangeType = Properties["ChangeType"].Value.ToString();
String FaultId = Properties["FaultId"].Value.ToString();
// Create
if (ChangeType == "0")
{
Fault MyNewFault = new MyFault(SubscriptionResult.Instance);
// TODO: Whatever you want!
}
// Remove
if (ChangeType == "1")
{
// TODO: Use FaultId to find and delete whatever representation you have...
}
// Update
if (ChangeType == "2")
{
// TODO: Use FaultId to find and modify whatever representation you have...
}
}
}
public void OnError(Exception e)
{
// Handle Exceptions
}
public void OnCompleted()
{
// Nothing
}
}
Общие сведения о жизненном цикле сбоя
Ошибки не должны быть помечены как "видимые" или разрешаются пользователем. Они создаются, когда служба работоспособности наблюдает за проблемой, и они удаляются автоматически только после того, как служба работоспособности больше не сможет наблюдать за проблемой. Как правило, это отражает, что проблема устранена.
Однако в некоторых случаях ошибки могут быть повторно обнаружены служба работоспособности, например после отработки отказа, периодическим подключением и т. д. По этой причине может потребоваться сохранить собственное представление ошибок, чтобы можно было легко дедупликировать. Это особенно важно при отправке оповещений электронной почты или эквивалента.
Свойства сбоя
В следующей таблице представлено несколько ключевых свойств объекта сбоя. Для полной схемы проверьте класс MSFT_StorageDiagnoseResult в storagewmi.mof.
Свойство | Пример |
---|---|
FaultId | {12345-12345-12345-12345-12345} |
FaultType | Microsoft.Health.FaultType.Volume.Capacity |
Причина | "Том занимает свободное место". |
Мнимая разверность | 5 |
ОшибкаObjectDescription | Contoso XYZ9000 S.N. 123456789 |
ОшибкаObjectLocation | Стойка A06, RU 25, слот 11 |
Рекомендуемые действия | {"Развернуть том". "Перенос рабочих нагрузок в другие тома".} |
FaultId: уникальный идентификатор в пределах одного кластера.
PerceivedSeverity: PerceivedSeverity = { 4, 5, 6 } = { "Информационный", "Предупреждение" и "Ошибка" }, или эквивалентные цвета, такие как синий, желтый и красный.
ОшибкаObjectDescription: сведения о части оборудования, обычно пустые для объектов программного обеспечения.
FaultingObjectLocation: сведения о расположении оборудования, обычно пустые для объектов программного обеспечения.
RecommendedActions: список рекомендуемых действий, которые являются независимыми и не зависят от определенного порядка. Сегодня этот список часто имеет длину 1.
Свойства события сбоя
В следующей таблице представлено несколько ключевых свойств события сбоя. Для полной схемы проверьте класс MSFT_StorageFaultEvent в storagewmi.mof.
Обратите внимание на параметр ChangeType , указывающий, создается ли ошибка, удаляется или обновляется, а также идентификатор сбоя. Событие также содержит все свойства затронутого сбоя.
Свойство | Пример |
---|---|
ChangeType | 0 |
FaultId | {12345-12345-12345-12345-12345} |
FaultType | Microsoft.Health.FaultType.Volume.Capacity |
Причина | "Том занимает свободное место". |
Мнимая разверность | 5 |
ОшибкаObjectDescription | Contoso XYZ9000 S.N. 123456789 |
ОшибкаObjectLocation | Стойка A06, RU 25, слот 11 |
Рекомендуемые действия | {"Развернуть том". "Перенос рабочих нагрузок в другие тома".} |
ChangeType ChangeType = { 0, 1, 2 } = { "Create", "Remove", "Update" }.
Охват
В Windows Server 2019 и Azure Local служба работоспособности обеспечивает следующее покрытие сбоя:
PhysicalDisk (31)
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedMedia
- Серьезность : предупреждение.
- Причина: "Сбой физического диска".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.LostCommunication
- Серьезность : предупреждение.
- Причина: "Подключение было потеряно на физический диск".
- Рекомендуется: "Убедитесь, что физический диск работает и подключен должным образом".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.Unresponsive
- Серьезность : предупреждение.
- Причина: "Физический диск демонстрирует повторяющуюся неответственность".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.PredictiveFailure
- Серьезность : предупреждение.
- Причина: "Сбой физического диска прогнозируется в ближайшее время".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedHardware
- Серьезность : предупреждение.
- Причина: "Физический диск помещается в карантин, так как он не поддерживается поставщиком решения".
- RecommendedAction: "Замените физический диск поддерживаемым оборудованием".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedFirmware
- Серьезность : предупреждение.
- Причина: "Физический диск находится в карантине, так как его версия встроенного ПО не поддерживается поставщиком решения".
- RecommendedAction: "Обновление встроенного ПО на физическом диске до целевой версии".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnrecognizedMetadata
- Серьезность : предупреждение.
- Причина: "Физический диск имеет нераспознанные метаданные".
- RecommendedAction: "Этот диск может содержать данные из неизвестного пула носителей. Сначала убедитесь, что на этом диске нет полезных данных, а затем сбросить диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedFirmwareUpdate
- Серьезность : предупреждение.
- Причина: "Не удалось обновить встроенное ПО на физическом диске".
- Рекомендуется: "Попробуйте использовать другой двоичный файл встроенного ПО".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblFailedMedia
- Серьезность : предупреждение.
- Причина: "Не удалось выполнить диск".
- Рекомендуется: "Заменить диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblUnresponsive
- Серьезность : предупреждение.
- Причина: "Физический диск демонстрирует повторяющуюся неответственность".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlock
- Серьезность : предупреждение.
- Причина: "Диск сообщил о плохих блоках во время записи. Случайный плохой блок является нормальным, но слишком много может означать, что диск неисправен, поврежден или начинает сбой".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlockRead
- Серьезность : предупреждение.
- Причина: "Диск сообщил о плохих блоках во время чтения. Случайный плохой блок является нормальным, но слишком много может означать, что диск неисправен, поврежден или начинает сбой".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoRetry
- Серьезность : предупреждение.
- Причина: "Диск требуется несколько попыток чтения или записи. Если это происходит, это может означать, что диск неисправен, поврежден или начинается сбой".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
Примечание.
Эта ошибка отключена по умолчанию. Чтобы включить его, задайте для параметра работоспособности System.Storage.PhysicalDisk.MarginalFailure.EventBased.IoRetry.Enabled значение true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoFailure
- Серьезность : предупреждение.
- Причина: "Диск не удалось прочитать или записать. Если это происходит, это может означать, что диск неисправен, поврежден или начинается сбой".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
Примечание.
Эта ошибка отключена по умолчанию. Чтобы включить его, задайте для параметра работоспособности System.Storage.PhysicalDisk.MarginalFailure.EventBased.IoFailure.Enabled значение true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureSmart
- Серьезность : предупреждение.
- Причина: "Диск сообщил о следующих потенциальных проблемах в Windows с помощью SMART (самоконтроля, анализа и отчетности технологии)"
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureHighWear
- Серьезность : предупреждение.
- Причина: "Диск достиг высокого процента от его рейтинговой выносливости записи. Диск может стать только для чтения, то есть он не может выполнять больше операций записи, когда он достигает 100% от его оценки выносливости. Проверьте лист данных или попросите производителя получить дополнительные сведения об оценке выносливости и поведении в конце жизни".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureReadOnly
- Серьезность : предупреждение.
- Причина: "Диск достиг 100% от его оценки выносливости записи и теперь доступен только для чтения, то есть он не может выполнять больше операций записи. Твердотельные накопители изнашиваются после определенного количества операций записи, которая зависит от оценки выносливости диска. Дополнительные сведения см. в спецификациях диска или попросите производителя о рейтинге выносливости и поведении в конце жизни".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.SlowestIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую пиковую задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
Примечание.
Эта ошибка отключена по умолчанию. Чтобы включить его, задайте для параметра работоспособности System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled значение true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую среднюю задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
Примечание.
Эта ошибка отключена по умолчанию. Чтобы включить его, задайте для параметра работоспособности System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled значение true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую среднюю задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.SlowestIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую пиковую задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет большое количество ошибок".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.Outlier.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет большое количество ошибок".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly
- Серьезность : предупреждение.
- Причина: "Диск кэша завершился сбоем некоторых операций чтения или записи, поэтому для защиты данных, которые мы переместили на диски емкости".
- RecommendedAction: "Замените диск или попробуйте очистить и сбросить его".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.Draining
- Серьезность : предупреждение.
- Причина: "Диск кэша завершился сбоем некоторых операций чтения или записи. Чтобы защитить данные, мы перестали записывать данные на диск кэша, и мы пытаемся переместить данные на диски емкости".
- RecommendedAction: "Зависание во время перемещения данных".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.FailedDrain
- Серьезность : предупреждение.
- Причина: "Некоторые данные на диске кэша не могут быть прочитаны, предотвращая перемещение данных на диски емкости".
- Рекомендуется: "Заменить диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.RotationFailure
- Серьезность : предупреждение.
- Причина: "Попытка смены ключа шифрования SED на новый сбой по умолчанию".
- Рекомендуется: "Убедитесь, что диск работает и правильно подключен. Если диск завершился сбоем, замените его. Перезапустите смену ключа шифрования SED после работоспособности диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefault
- Серьезность : предупреждение.
- Причина: "Физический диск имеет ключ шифрования SED, однако он не соответствует текущему ключу по умолчанию".
- Рекомендуется: "Инициировать смену ключа шифрования SED".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefined
- Серьезность : предупреждение.
- Причина: "Для диска не определен ключ шифрования SED по умолчанию".
- RecommendedAction: "Настройка ключа шифрования SED по умолчанию".
FaultType: Microsoft.Health.FaultType.StorageScaleUnit.SedEncKey.RotationTimeout
- Серьезность : предупреждение.
- Причина: "Не удалось завершить смену ключа шифрования SED на сервере до истечения времени ожидания"
- Рекомендуется: "Убедитесь, что сервер доступен и что все физические диски работоспособны".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.DriveArriveFailure
- Серьезность : предупреждение.
- Причина: "Физический диск завершается сбоем запросов. "
- Рекомендуется: "Проверьте надежность сети. Если проблема сохранится, попробуйте заменить устройство".
Виртуальный диск (3)
FaultType: Microsoft.Health.FaultType.VirtualDisks.NeedsRepair
- Важность: информационное сообщение
- Причина: "Некоторые данные по этому тому не полностью устойчивы. Она остается доступной".
- RecommendedAction: "Восстановление устойчивости данных".
FaultType: Microsoft.Health.FaultType.VirtualDisks.Detached
- Уровень серьезности: критический
- Причина: "Том недоступен. Некоторые данные могут быть потеряны".
- RecommendedAction: "Проверьте физическое и/или сетевое подключение всех устройств хранения. Возможно, потребуется восстановить данные из резервной копии".
FaultType: Microsoft.Health.FaultType.VirtualDisks.NoRedundancy
- Уровень серьезности: критический
- Причина: "Все копии данных недоступны для региона виртуального диска. Рабочая нагрузка может быть прервана, и могут наблюдаться сбои операций ввода-вывода".
- Рекомендуется: "Если операция обслуживания продолжается, приостанавливайте ее и восстанавливайте доступ ко всему хранилищу, пока хранилище не стабилизируется".
Емкость пула (2)
FaultType: Microsoft.Health.FaultType.StoragePool.TransactionAndCleanupFailure
- Серьезность : предупреждение.
- Причина: "Пул носителей не может записываться в кворум устройств метаданных. Рабочая нагрузка может быть прервана, и могут наблюдаться сбои операций ввода-вывода".
- Рекомендуется: "Если операция обслуживания продолжается, приостанавливайте ее и восстанавливайте доступ ко всему хранилищу, пока хранилище не стабилизируется".
FaultType: Microsoft.Health.FaultType.StoragePool.PoolCapacityThresholdExceeded
- Серьезность : предупреждение.
- Причина: "Пул носителей не имеет емкости".
- Рекомендуется: "Добавить дополнительную емкость в пул носителей или освободить емкость".
Емкость тома (5)1
FaultType: Microsoft.Health.FaultType.Volume.Capacity
- Серьезность : предупреждение.
- Причина: "Объем выходит из свободного места".
- Рекомендуется: "Развернуть том или перенести рабочие нагрузки на другие тома".
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Correctable
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила ошибку контрольной суммы и смогла исправить ее".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила ошибку контрольной суммы и не смогла исправить ее".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemoved
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила повреждение файла или папки. Файл или папка удалены из пространства имен файловой системы".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemovalFailure
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила повреждение файла или папки. Файловая система, возможно, не удалось удалить ее из пространства имен файловой системы".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
Сервер (12)
FaultType: Microsoft.Health.FaultType.Server.Down
- Уровень серьезности: критический
- Причина: "Не удается достичь сервера".
- RecommendedAction: "Пуск или замена сервера".
FaultType: Microsoft.Health.FaultType.Server.Isolated
- Уровень серьезности: критический
- Причина: "Сервер изолирован от кластера из-за проблем с подключением".
- Рекомендуется: "Если изоляция сохраняется, проверьте сети или перенесите рабочие нагрузки на другие узлы".
FaultType: Microsoft.Health.FaultType.Server.Quarantined
- Уровень серьезности: критический
- Причина: "Сервер помещается в карантин кластером из-за повторяющихся сбоев".
- RecommendedAction: "Замените сервер или исправьте сеть".
FaultType: Microsoft.Health.FaultType.Server.Temperature
- Серьезность : предупреждение.
- Причина: "Датчик температуры сервера вызвал предупреждение".
- RecommendedAction: "Проверьте температуру сервера".
FaultType: Microsoft.Health.FaultType.Server.Storage.Degraded
- Серьезность : предупреждение.
- Причина: "Сервер имеет хранилище, которое не завершено или актуально, поэтому нам нужно синхронизировать его с данными с других серверов в кластере. Это нормально после перезапуска сервера или диска".
- RecommendedAction: "Зависание во время синхронизации хранилища. Не удаляйте диски или перезагрузите все серверы в кластере, пока не подтвердите, что синхронизация завершена".
FaultType: Microsoft.Health.FaultType.Node.CPUOverloaded
- Серьезность : предупреждение.
- Причина: "Использование ЦП сервера постоянно превышает пороговое значение".
- RecommendedAction: "Перемещение виртуальных машин на другие серверы с меньшим потреблением ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов в кластер (обычно путем добавления серверов).
FaultType: Microsoft.Health.FaultType.Node.VCPUToLCPU
- Серьезность : предупреждение.
- Причина: "Отношение виртуальных процессоров к логическим процессорам (потокам) на этом сервере превысило заданное пороговое значение".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с меньшим использованием ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов в кластер".
FaultType: Microsoft.Health.FaultType.Node.LowFreeRam
- Серьезность : предупреждение.
- Причина: "Доступная память ниже заданного порогового значения".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с меньшим использованием ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов в кластер".
FaultType: Microsoft.Health.FaultType.Node.HighRootPartitionMemoryUsage
- Серьезность : предупреждение.
- Причина: "Windows Server потребляет много физической памяти, которая превышает заданное пороговое значение".
- RecommendedAction: "Проверьте наличие процессов или приложений, потребляющих слишком много памяти, переместите виртуальные машины на другие серверы или добавьте память на серверы".
FaultType: Microsoft.Health.FaultType.Node.TooHighCpuReservation
- Серьезность : предупреждение.
- Причина: "Объединенное резервирование ЦП виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения резервирования ЦП".
FaultType: Microsoft.Health.FaultType.Node.TooHighMemoryUseAfterReclamation
- Серьезность : предупреждение.
- Причина: "Объединенное назначение памяти виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения их назначенной памяти".
FaultType: Microsoft.Health.FaultType.Node.SustainedHighCpuUsage
- Серьезность : предупреждение.
- Причина: "Сервер имеет постоянное превышение порогового значения использования ЦП".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с более низким потреблением ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов".
Кластер (6)
FaultType: Microsoft.Health.FaultType.ClusterQuorumWitness.Error
- Уровень серьезности: критический
- Причина: "Кластер — это один сбой сервера от выхода из строя".
- RecommendedAction: "Проверьте ресурс-свидетель и перезапустите его по мере необходимости. Запуск или замена неудачных серверов".
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReport.Failed
- Уровень серьезности: критический
- Причина: "Проверка кластера обнаружила проблемы".
- RecommendedAction: "Проверка кластера обнаружила сбои в некоторых категориях тестов. См. отчет о проверке кластера".
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReportDcb.Failed
- Уровень серьезности: критический
- Причина: "Validate-DCB обнаружил проблемы".
- RecommendedAction: "Validate-DCB обнаружила сетевые ошибки. См. отчет о проверке DCB".
FaultType: Microsoft.Health.FaultType.Cluster.TooHighCpuReservation
- Уровень серьезности: критический
- Причина: "Объединенное резервирование ЦП виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения резервирования ЦП".
FaultType: Microsoft.Health.FaultType.Cluster.TooHighMemoryUseAfterReclamation
- Уровень серьезности: критический
- Причина: "Объединенное назначение памяти виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения их назначенной памяти".
FaultType: Microsoft.Health.FaultType.Cluster.SustainedHighCpuUsage
- Уровень серьезности: критический
- Причина: "Сервер имеет постоянное превышение порогового значения использования ЦП".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с более низким потреблением ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов".
Сетевой адаптер или интерфейс (6)
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disconnected
- Серьезность : предупреждение.
- Причина: "Сетевой интерфейс стал отключен".
- RecommendedAction: "Повторно подключите сетевой кабель".
FaultType: Microsoft.Health.FaultType.NetworkInterface.Missing
- Серьезность : предупреждение.
- Причина: "Сервер {server} не имеет сетевых адаптеров, подключенных к сети кластера {cluster network}".
- RecommendedAction: "Подключение сервера к отсутствующим сетям кластера".
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Hardware
- Серьезность : предупреждение.
- Причина: "Сетевой интерфейс имел сбой оборудования".
- RecommendedAction: "Замена сетевого адаптера".
FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disabled
- Серьезность : предупреждение.
- Причина: "Сетевой интерфейс {сетевой интерфейс} не включен и не используется".
- RecommendedAction: "Включить сетевой интерфейс".
FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Alert
- Серьезность : предупреждение.
- Причина: "Кластер обнаружил проблемы с сетевым подключением, которые препятствуют правильной работе Локальные дисковые пространства".
- Рекомендуется: "Убедитесь, что сеть настроена правильно и работает. Если вы используете RDMA Over Конвергентный Ethernet (RoCE), убедитесь, что центр обработки данных (DCB), расширенная служба передачи (ETS) и управление потоками приоритета (PFC) настроены правильно и согласованно на каждом узле кластера и физическом коммутаторе. Если вы не знаете, как это сделать, попросите поставщика или кого-то, кому вы доверяете, чтобы помочь вам".
FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Disabled
- Серьезность : предупреждение.
- Причина: "Кластер обнаружил проблемы с сетевым подключением, которые препятствуют правильной работе Локальные дисковые пространства. Чтобы обеспечить согласованность производительности и безопасности данных, Локальные дисковые пространства перестал использовать удаленный прямой доступ к памяти (RDMA), даже если оборудование с поддержкой RDMA присутствует и включено. Трафик хранилища будет продолжаться, но с снижением производительности с помощью TCP/IP".
- Рекомендуется: "Убедитесь, что сеть настроена правильно и работает, а затем включите RDMA. Если вы используете RDMA Over Конвергентный Ethernet (RoCE), убедитесь, что центр обработки данных (DCB), расширенная служба передачи (ETS) и управление потоками приоритета (PFC) настроены правильно и согласованно на каждом узле кластера и физическом коммутаторе. Если вы не знаете, как это сделать, попросите поставщика или кого-то, кому вы доверяете, чтобы помочь вам. Чтобы продолжить работу с отключенным RDMA, вы можете закрыть это оповещение".
Корпус (6)
FaultType: Microsoft.Health.FaultType.StorageEnclosure.LostCommunication
- Серьезность : предупреждение.
- Причина: "Связь была потеряна в корпусе хранилища".
- RecommendedAction: "Запуск или замена корпуса хранилища".
FaultType: Microsoft.Health.FaultType.StorageEnclosure.FanError
- Серьезность : предупреждение.
- Причина: "Сбой вентилятора в позиции {position} корпуса хранилища".
- RecommendedAction: "Замените вентилятор в корпусе хранилища".
FaultType: Microsoft.Health.FaultType.StorageEnclosure.CurrentSensorError
- Серьезность : предупреждение.
- Причина: "Текущий датчик в позиции {положение} корпуса хранилища завершился сбоем".
- RecommendedAction: "Замена текущего датчика в корпусе хранилища".
FaultType: Microsoft.Health.FaultType.StorageEnclosure.VoltageSensorError
- Серьезность : предупреждение.
- Причина: "Датчик напряжения в позиции {положение} корпуса хранилища завершился сбоем".
- RecommendedAction: "Замена датчика напряжения в корпусе хранилища".
FaultType: Microsoft.Health.FaultType.StorageEnclosure.IoControllerError
- Серьезность : предупреждение.
- Причина: "Сбой контроллера ввода-вывода в позиции {position} корпуса хранилища".
- RecommendedAction: "Замена контроллера ввода-вывода в корпусе хранилища".
FaultType: Microsoft.Health.FaultType.StorageEnclosure.TemperatureSensorError
- Серьезность : предупреждение.
- Причина: "Датчик температуры в позиции {положение} корпуса хранилища завершился сбоем".
- RecommendedAction: "Замена датчика температуры в корпусе хранилища".
Развертывание встроенного ПО (3)
FaultType: Microsoft.Health.FaultType.FaultDomain.FailedMaintenanceMode
- Серьезность : предупреждение.
- Причина: "В настоящее время не удается добиться прогресса при развертывании встроенного ПО".
- Рекомендуется: "Убедитесь, что все дисковые пространства работоспособны, и что домен сбоя в настоящее время не находится в режиме обслуживания".
FaultType: Microsoft.Health.FaultType.FaultDomain.FirmwareVerifyVersionFailed
- Серьезность : предупреждение.
- Причина: "Развертывание встроенного ПО было отменено из-за нечитаемых или непредвиденных сведений о версии встроенного ПО после применения обновления встроенного ПО".
- Рекомендуется: "Перезапустите встроенное ПО после устранения проблемы встроенного ПО".
FaultType: Microsoft.Health.FaultType.FaultDomain.TooManyFailedUpdates
- Серьезность : предупреждение.
- Причина: "Развертывание встроенного ПО было отменено из-за слишком большого количества физических дисков, завершив попытку обновления встроенного ПО".
- Рекомендуется: "Перезапустите встроенное ПО после устранения проблемы встроенного ПО".
Качество обслуживания хранилища (3)2
FaultType: Microsoft.Health.FaultType.StorQos.InsufficientThroughput
- Серьезность : предупреждение.
- Причина: "Пропускная способность хранилища недостаточно для удовлетворения резервов".
- RecommendedAction: "Перенастройка политик качества обслуживания хранилища".
FaultType: Microsoft.Health.FaultType.StorQos.LostCommunication
- Серьезность : предупреждение.
- Причина: "Диспетчер политик качества обслуживания хранилища потерял связь с томом".
- RecommendedAction: "Перезагрузите узлы {nodes}"
FaultType: Microsoft.Health.FaultType.StorQos.MisconfiguredFlow
- Серьезность : предупреждение.
- Причина: "Один или несколько потребителей хранилища (обычно Виртуальные машины) используют неисключаемую политику с идентификатором {id}".
- RecommendedAction: "Повторно создайте отсутствующие политики качества обслуживания хранилища".
Vm/VHD (7)
FaultType: Microsoft.Health.FaultType.Vm.BadHealthState
- Серьезность : предупреждение.
- Причина: "Состояние работоспособности виртуальной машины не в порядке".
- Рекомендуется: "Устранение неполадок виртуальной машины".
FaultType: Microsoft.Health.FaultType.Vm.BadOperationalStatus
- Серьезность : предупреждение.
- Причина: "Состояние работы виртуальной машины не в порядке".
- Рекомендуется: "Устранение неполадок виртуальной машины".
FaultType: Microsoft.Health.FaultType.Vm.GuestUnhealthy
- Серьезность : предупреждение.
- Причина: "Гостевая операционная система на виртуальной машине сообщает о неработоспособном состоянии".
- Рекомендуется: "Устранение неполадок виртуальной машины".
FaultType: Microsoft.Health.FaultType.Vm.ConfigIsOffline
- Серьезность : предупреждение.
- Причина: "Ресурс конфигурации виртуальной машины находится в автономном режиме, то есть виртуальная машина не может быть администрированием".
- Рекомендуется: "Подключение конфигурации виртуальной машины к сети".
FaultType: Microsoft.Health.FaultType.Vm.NotRespondingToControlCodes
- Серьезность : предупреждение.
- Причина: "Виртуальная машина не отвечает на коды управления кластером".
- RecommendedAction: "Проверьте состояние ресурса кластера виртуальной машины".
FaultType: Microsoft.Health.FaultType.Vm.IsNearMemoryLimit
- Серьезность : предупреждение.
- Причина: "Виртуальная машина нуждается в большей части настроенной максимальной памяти".
- Рекомендуется: "Проверка процессов или приложений, потребляющих слишком много памяти, или рассмотрите возможность увеличения максимальной памяти".
FaultType: Microsoft.Health.FaultType.Vhd.IsNearlyFull
- Серьезность : предупреждение.
- Причина: "Виртуальный жесткий диск достиг своей емкости. Никакие данные не могут быть записаны в него, что может негативно повлиять на виртуальные машины".
- RecommendedAction: "Изменение размера виртуального жесткого диска или удаление нежелательных файлов".
1 Указывает, что объем достиг 80 % полной (незначительный уровень серьезности) или 90 % полный (основной уровень серьезности). 2 Указывает, что некоторые VHD-файлы на томе не выполнили минимальное число операций ввода-вывода в секунду для более чем 10 % (незначительный), 30 % (основной) или 50 % (критически важный) 24-часового окна.
Примечание.
Работоспособность компонентов корпуса хранилища, таких как вентиляторы, питание и датчики, являются производными от служб корпуса SCSI (SES). Если поставщик не предоставляет эту информацию, служба работоспособности ее не отображает.