Просмотр неисправностей службы здравоохранения
Применимо к: Azure Local 2311.2 и более поздних версий; Windows Server 2022, Windows Server 2019
Служба здравоохранения постоянно отслеживает кластер Storage Spaces Direct для обнаружения проблем и создания сбоев. Один командлет отображает все текущие сбои, что позволяет легко проверить работоспособность развертывания, не глядя на каждую сущность или функцию. Сбой должен быть точным, понятным и с возможностью применения на практике.
Каждая ошибка содержит пять важных полей:
- Серьезность
- Описание проблемы
- Рекомендуемые дальнейшие действия по устранению проблемы
- Идентификационная информация для сбойного объекта
- Физическое расположение (если применимо)
Вот пример распространенной ошибки:
Severity: MINOR
Reason: Connectivity has been lost to the physical disk.
Recommendation: Check that the physical disk is working and properly connected.
Part: Manufacturer Contoso, Model XYZ9000, Serial 123456789
Location: Seattle DC, Rack B07, Node 4, Slot 11
Примечание.
Физическое расположение основывается на конфигурации домена сбоя. Дополнительные сведения о доменах сбоя см. в разделе "Осведомленность о домене сбоя". Если вы не предоставляете эти сведения, поле расположения будет менее полезным. Например, он может отображать только номер слота.
Анализ первопричин
Служба здравоохранения может оценить возможную причинно-следственную связь между виновными сторонами для выявления и объединения ошибок, которые являются последствиями одной и той же основной проблемы. Выявление цепочек причин и следствий позволяет сделать отчетность менее многословной. Например, если сервер отключен, ожидается, что все диски на сервере также не подключены. Поэтому для первопричины будет зарегистрирована только одна ошибка — в данном случае сервер.
Использование в PowerShell
Чтобы просмотреть текущие ошибки в PowerShell, выполните следующий командлет:
Get-HealthFault
Это возвращает любые ошибки, влияющие на кластер Storage Spaces Direct в целом. Чаще всего эти ошибки связаны с оборудованием или конфигурацией. Если ошибки отсутствуют, командлет ничего не возвращает.
Примечание.
В непроизводственной среде и на ваш собственный риск вы можете экспериментировать с этой функцией, вызвав ошибки самостоятельно. Например, это можно сделать, удалив один физический диск или завершив работу одного узла. После появления ошибки повторно вставьте физический диск или перезапустите узел, чтобы ошибка исчезла.
Использование в .NET и C#
В этом разделе показано, как подключиться к службе здравоохранения, использовать объекты поиска и выполнять поисковые запросы неисправностей.
Подключить
Для того чтобы сделать запрос в службу работоспособности системы, необходимо установить CimSession с кластером. Для этого вам потребуются некоторые вещи, которые доступны только в полной версии Microsoft .NET, то есть вы не можете сделать это непосредственно из веб-приложения или мобильного приложения. Примеры кода в этом разделе используют C#, самый простой выбор для этого уровня доступа к данным.
using System.Security;
using Microsoft.Management.Infrastructure;
public CimSession Connect(string Domain = "...", string Computer = "...", string Username = "...", string Password = "...")
{
SecureString PasswordSecureString = new SecureString();
foreach (char c in Password)
{
PasswordSecureString.AppendChar(c);
}
CimCredential Credentials = new CimCredential(
PasswordAuthenticationMechanism.Default, Domain, Username, PasswordSecureString);
WSManSessionOptions SessionOptions = new WSManSessionOptions();
SessionOptions.AddDestinationCredentials(Credentials);
Session = CimSession.Create(Computer, SessionOptions);
return Session;
}
Указанное имя пользователя должно обладать правами локального администратора целевого компьютера.
Рекомендуется создавать пароль SecureString непосредственно из пользовательского ввода в режиме реального времени, чтобы пароль никогда не хранится в памяти в виде обычного текста. Это помогает устранить различные проблемы безопасности. Но на практике конструкция, как выше, распространена в целях прототипирования.
Обнаружение объектов
Установив CimSession, вы можете запросить инструментарий управления Windows (WMI) в кластере.
Прежде чем получить ошибки или метрики, необходимо получить экземпляры нескольких соответствующих объектов. Сначала получите MSFT_StorageSubSystem, представляющую Storage Spaces Direct в кластере. С помощью этого можно получить все MSFT_StorageNode в кластере и каждый MSFT_Volume томов данных. Наконец, необходимо получить MSCluster_ClusterHealthService, сама служба здоровья.
CimInstance Cluster;
List<CimInstance> Nodes;
List<CimInstance> Volumes;
CimInstance HealthService;
public void DiscoverObjects(CimSession Session)
{
// Get MSFT_StorageSubSystem for Storage Spaces Direct
Cluster = Session.QueryInstances(@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageSubSystem")
.First(Instance => (Instance.CimInstanceProperties["FriendlyName"].Value.ToString()).Contains("Cluster"));
// Get MSFT_StorageNode for each cluster node
Nodes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageNode", null, "StorageSubSystem", "StorageNode").ToList();
// Get MSFT_Volumes for each data volume
Volumes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToVolume", null, "StorageSubSystem", "Volume").ToList();
// Get MSFT_StorageHealth itself
HealthService = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
Cluster, "MSFT_StorageSubSystemToStorageHealth", null, "StorageSubSystem", "StorageHealth").First();
}
Это те же объекты, которые вы получаете в PowerShell с помощью командлетов Get-StorageSubSystem, Get-StorageNode и Get-Volume.
Вы можете получить доступ ко всем тем же свойствам, которые описаны в классах API управления хранилищами.
using System.Diagnostics;
foreach (CimInstance Node in Nodes)
{
// For illustration, write each node's Name to the console. You could also write State (up/down), or anything else!
Debug.WriteLine("Discovered Node " + Node.CimInstanceProperties["Name"].Value.ToString());
}
Ошибки запросов
Вызовите диагностику для получения текущих ошибок в целевом CimInstance, который может быть кластером или любым томом.
Полный список сбоев, доступных в каждой области в Windows Server 2019, описан далее в разделе "Покрытие ".
public void GetFaults(CimSession Session, CimInstance Target)
{
// Set Parameters (None)
CimMethodParametersCollection FaultsParams = new CimMethodParametersCollection();
// Invoke API
CimMethodResult Result = Session.InvokeMethod(Target, "Diagnose", FaultsParams);
IEnumerable<CimInstance> DiagnoseResults = (IEnumerable<CimInstance>)Result.OutParameters["DiagnoseResults"].Value;
// Unpack
if (DiagnoseResults != null)
{
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
// TODO: Whatever you want!
}
}
}
Необязательный: класс MyFault
Может потребоваться создать и сохранить собственное представление ошибок. Например, класс MyFault хранит несколько ключевых свойств ошибок, включая FaultId, которые можно использовать позже для связывания обновлений, удаления уведомлений или дедупликации в случае обнаружения одной и той же ошибки несколько раз.
public class MyFault {
public String FaultId { get; set; }
public String Reason { get; set; }
public String Severity { get; set; }
public String Description { get; set; }
public String Location { get; set; }
// Constructor
public MyFault(CimInstance DiagnoseResult)
{
CimKeyedCollection<CimProperty> Properties = DiagnoseResult.CimInstanceProperties;
FaultId = Properties["FaultId" ].Value.ToString();
Reason = Properties["Reason" ].Value.ToString();
Severity = Properties["PerceivedSeverity" ].Value.ToString();
Description = Properties["FaultingObjectDescription"].Value.ToString();
Location = Properties["FaultingObjectLocation" ].Value.ToString();
}
}
List<MyFault> Faults = new List<MyFault>;
foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
Faults.Add(new Fault(DiagnoseResult));
}
Полный список свойств в каждой ошибке (DiagnoseResult) описан далее в разделе свойств сбоя.
События сбоя
При создании, удалении или обновлении сбоев служба обеспечения работоспособности создает события WMI. Это важно для поддержания состояния приложения в синхронизации без частого опроса и может помочь в таких случаях, как определить, когда отправлять оповещения электронной почты, например. Для подписки на эти события в следующем примере кода используется шаблон конструктора наблюдателя.
Сначала подпишитесь на события MSFT_StorageFaultEvent.
public void ListenForFaultEvents()
{
IObservable<CimSubscriptionResult> Events = Session.SubscribeAsync(
@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageFaultEvent");
// Subscribe the Observer
FaultsObserver<CimSubscriptionResult> Observer = new FaultsObserver<CimSubscriptionResult>(this);
IDisposable Disposeable = Events.Subscribe(Observer);
}
Затем реализуйте наблюдатель, метод OnNext() которого вызывается при создании нового события.
Каждое событие содержит ChangeType , указывающее, создается ли ошибка, удаляется или обновляется, а также соответствующий идентификатор сбоя.
Кроме того, каждое событие содержит все свойства самого сбоя.
class FaultsObserver : IObserver
{
public void OnNext(T Event)
{
// Cast
CimSubscriptionResult SubscriptionResult = Event as CimSubscriptionResult;
if (SubscriptionResult != null)
{
// Unpack
CimKeyedCollection<CimProperty> Properties = SubscriptionResult.Instance.CimInstanceProperties;
String ChangeType = Properties["ChangeType"].Value.ToString();
String FaultId = Properties["FaultId"].Value.ToString();
// Create
if (ChangeType == "0")
{
Fault MyNewFault = new MyFault(SubscriptionResult.Instance);
// TODO: Whatever you want!
}
// Remove
if (ChangeType == "1")
{
// TODO: Use FaultId to find and delete whatever representation you have...
}
// Update
if (ChangeType == "2")
{
// TODO: Use FaultId to find and modify whatever representation you have...
}
}
}
public void OnError(Exception e)
{
// Handle Exceptions
}
public void OnCompleted()
{
// Nothing
}
}
Общие сведения о жизненном цикле сбоя
Ошибки не должны быть помечены как "видимые" или считаться разрешенными пользователем. Они создаются, когда служба здоровья обнаруживает проблему, и они удаляются автоматически только после того, как служба здоровья перестанет обнаруживать проблему. Как правило, это отражает, что проблема устранена.
Однако в некоторых случаях ошибки могут быть повторно обнаружены службой работоспособности, например после переключения на резерв, прерывистого подключения и т. д. По этой причине может потребоваться сохранить собственное представление ошибок, чтобы можно было легко дедупликировать. Это особенно важно при отправке оповещений электронной почты или эквивалента.
Свойства сбоя
В следующей таблице представлено несколько ключевых свойств объекта сбоя. Для полной схемы проверьте класс MSFT_StorageDiagnoseResult в storagewmi.mof.
Свойство | Пример |
---|---|
ИдентификаторОшибки | {12345-12345-12345-12345-12345} |
Тип ошибки | Microsoft.Health.FaultType.Volume.Capacity |
Причина | "В томе заканчивается свободное место." |
Воспринимаемая серьёзность | 5 |
ОписаниеОбъектаОшибки | Contoso XYZ9000 S.N. 123456789 |
ОшибкаObjectLocation | Стойка A06, RU 25, слот 11 |
Рекомендуемые действия | {"Увеличить объем.", "Перемещать рабочие нагрузки на другие тома."} |
FaultId: уникальный идентификатор в пределах одного кластера.
PerceivedSeverity: PerceivedSeverity = { 4, 5, 6 } = { "Информационный", "Предупреждение" и "Ошибка" }, или эквивалентные цвета, такие как синий, желтый и красный.
Описание сбойного объекта: информация о деталях оборудования, обычно отсутствует для программных объектов.
FaultingObjectLocation: сведения о расположении оборудования, обычно пустые для объектов программного обеспечения.
RecommendedActions: список рекомендуемых действий, которые являются независимыми и не зависят от определенного порядка. Сегодня этот список часто имеет длину 1.
Свойства события сбоя
В следующей таблице представлено несколько ключевых свойств события сбоя. Для полной схемы проверьте класс MSFT_StorageFaultEvent в storagewmi.mof.
Обратите внимание на параметр ChangeType , указывающий, создается ли ошибка, удаляется или обновляется, а также идентификатор сбоя. Событие также содержит все свойства затронутого сбоя.
Свойство | Пример |
---|---|
Тип изменения | 0 |
Идентификатор ошибки | {12345-12345-12345-12345-12345} |
Тип Ошибки | Microsoft.Health.FaultType.Volume.Capacity |
Причина | "В томе заканчивается доступное пространство." |
Воспринимаемая серьезность | 5 |
Описание ошибки объекта | Contoso XYZ9000 S.N. 123456789 |
ОшибкаObjectLocation | Стойка A06, RU 25, слот 11 |
Рекомендуемые действия | {"Расширить том", "Перенос рабочих нагрузок на другие тома"} |
ChangeType ChangeType = { 0, 1, 2 } = { "Создать", "Удалить", "Обновить" }.
Охват
В Windows Server 2019 и Azure Local служба мониторинга состояния обеспечивает следующую защиту от сбоев:
PhysicalDisk (31)
ТипНеисправности: Microsoft.Health.FaultType.PhysicalDisk.НеполадкиСМедиа.
- Серьезность : предупреждение.
- Причина: "Сбой физического диска".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.ПотеряСвязи
- Серьезность : предупреждение.
- Причина: "Подключение было потеряно на физический диск".
- Рекомендуется: "Убедитесь, что физический диск работает и подключен должным образом".
Тип ошибки: Microsoft.Health.FaultType.Физический диск не отвечает
- Серьезность : предупреждение.
- Причина: "Физический диск проявляет повторную неотзывчивость".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.PredictiveFailure
- Серьезность : предупреждение.
- Причина: "Сбой физического диска прогнозируется в ближайшее время".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.НеподдерживаемоеОборудование
- Серьезность : предупреждение.
- Причина: "Физический диск помещается в карантин, так как он не поддерживается поставщиком решения".
- RecommendedAction: "Замените физический диск поддерживаемым оборудованием".
ТипОшибки: Microsoft.Health.FaultType.PhysicalDisk.НеподдерживаемаяПрошивка
- Серьезность : предупреждение.
- Причина: "Физический диск находится в карантине, так как его версия встроенного ПО не поддерживается поставщиком решения".
- RecommendedAction: "Обновите встроенное ПО на физическом диске до целевой версии."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnrecognizedMetadata
- Серьезность : предупреждение.
- Причина: "Физический диск имеет нераспознанные метаданные".
- RecommendedAction: "Этот диск может содержать данные из неизвестного пула носителей. Сначала убедитесь, что на этом диске нет полезных данных, а затем сбросить диск".
ТипОшибки: Microsoft.Health.FaultType.PhysicalDisk.FailedFirmwareUpdate
- Серьезность : предупреждение.
- Причина: "Не удалось обновить встроенное ПО на физическом диске".
- Рекомендуется: "Попробуйте использовать другой двоичный файл встроенного ПО".
ТипОшибки: Microsoft.Health.FaultType.PhysicalDisk.SblFailedMedia
- Серьезность : предупреждение.
- Причина: "Диск отказал".
- Рекомендуется: "Заменить диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblUnresponsive
- Серьезность : предупреждение.
- Причина: "Физический диск демонстрирует повторяющуюся неотзывчивость".
- Рекомендуется: "Заменить физический диск".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlock
- Серьезность : предупреждение.
- Причина: "Диск сообщил об ошибочных блоках во время записи. Случайный ошибочный блок является нормальным, но слишком большое количество может означать, что диск неисправен, поврежден или начинает выходить из строя".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlockRead
- Серьезность : предупреждение.
- Причина: "Диск сообщил о плохих блоках во время чтения. Случайный плохой блок является нормальным, но слишком много может свидетельствовать о том, что диск неисправен, поврежден или начинает выходить из строя".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
ТипОшибки: Microsoft.Health.FaultType.PhysicalDisk.FailureIoRetry
- Серьезность : предупреждение.
- Причина: "Для чтения или записи на диск требуется несколько попыток. Если это продолжает происходить, это может означать, что диск неисправен, повреждён или начинает выходить из строя".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
Примечание.
Этот сбой отключен по умолчанию. Чтобы включить его, установите параметр работоспособности System.Storage.PhysicalDisk.MarginalFailure.EventBased.IoRetry.Enabled на true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.СбойОшибкаВводаВывода
- Серьезность : предупреждение.
- Причина: "Диск не удалось прочитать или записать. Если это происходит, это может означать, что диск неисправен, поврежден или начинается сбой".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
Примечание.
Эта неисправность отключена по умолчанию. Чтобы включить его, задайте для параметра работоспособности System.Storage.PhysicalDisk.MarginalFailure.EventBased.IoFailure.Enabled значение true.
Тип ошибки: Microsoft.Health.FaultType.PhysicalDisk.FailureSmart
- Серьезность : предупреждение.
- Причина: "Диск сообщил о следующих потенциальных проблемах Windows с помощью технологии SMART (Self-Monitoring, Analysis and Reporting Technology)"
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureHighWear
- Серьезность : предупреждение.
- Причина: "Диск достиг высокого процента от его заявленного ресурса записей. Диск может перейти в режим только для чтения, что означает невозможность выполнения операций записи, когда он достигает 100% своего заявленного ресурса. Проверьте техническую документацию или обратитесь к производителю за дополнительной информацией об оценке ресурса и поведении в конце срока службы."
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureReadOnly
- Серьезность : предупреждение.
- Причина: "Диск достиг 100% от его оценки выносливости записи и теперь доступен только для чтения, то есть он не может выполнять больше операций записи. Твердотельные накопители изнашиваются после определенного количества операций записи, которая зависит от оценки выносливости диска. Дополнительные сведения см. в спецификациях диска или попросите производителя о рейтинге выносливости и поведении в конце жизни".
- Рекомендуется: "Если это продолжает происходить, или вы наблюдаете снижение производительности, рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.SlowestIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую пиковую задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
Примечание.
Этот сбой отключён по умолчанию. Чтобы включить его, задайте для параметра работоспособности System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled значение true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую среднюю задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
Примечание.
Эта ошибка отключена по умолчанию. Чтобы включить его, задайте для параметра работоспособности System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled значение true.
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую среднюю задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
Тип ошибки: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.SlowestIO
- Серьезность : предупреждение.
- Причина: "Диск имеет высокую пиковую задержку".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет большое количество ошибок".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.Outlier.AverageIO
- Серьезность : предупреждение.
- Причина: "Диск имеет большое количество ошибок".
- RecommendedAction: "Отслеживайте производительность диска и рассмотрите возможность замены диска".
Тип ошибки: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly
- Серьезность : предупреждение.
- Причина: "Диск кэша не смог выполнить некоторые операции чтения или записи, поэтому для защиты ваших данных мы переместили их на накопители для хранения данных."
- RecommendedAction: "Замените диск или попробуйте очистить и сбросить его".
FaultType: Microsoft.Health.FaultType.ФизическийДиск.КэшТолькоДляЧтения.Опорожнение
- Серьезность : предупреждение.
- Причина: "Диск кэша вышел из строя, возникли проблемы с чтением или записью. Чтобы защитить ваши данные, мы прекратили запись на диск кэша и пытаемся переместить данные на диски хранения".
- RecommendedAction: "Подождите, пока мы перемещаем данные."
FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.FailedDrain
- Серьезность : предупреждение.
- Причина: "Некоторые данные на диске кэша не могут быть прочитаны, из-за чего их невозможно переместить на диски емкости".
- Рекомендуется: "Заменить диск".
Тип ошибки: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.RotationFailure
- Серьезность : предупреждение.
- Причина: "Попытка смены ключа шифрования SED на новый ключ по умолчанию не удалась."
- Рекомендуется: "Убедитесь, что диск работает и правильно подключен. Если диск вышел из строя, замените его. Перезапустите смену ключа шифрования SED после восстановления диска".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefault
- Серьезность : предупреждение.
- Причина: "Физический диск имеет ключ шифрования SED, однако он не соответствует текущему ключу по умолчанию".
- Рекомендуется: "Инициировать смену ключа шифрования SED".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefined (Технический термин: ключ шифрования Sed не определен)
- Серьезность : предупреждение.
- Причина: "Для диска не определен ключ шифрования SED по умолчанию".
- RecommendedAction: "Настройка ключа шифрования SED по умолчанию".
FaultType: Microsoft.Health.FaultType.StorageScaleUnit.SedEncKey.RotationTimeout
- Серьезность : предупреждение.
- Причина: "Не удалось завершить смену ключа шифрования SED на сервере до истечения времени ожидания"
- Рекомендуется: "Убедитесь, что сервер доступен и что все физические диски работоспособны".
FaultType: Microsoft.Health.FaultType.PhysicalDisk.НеисправностьПрибывшегоДиска
- Серьезность : предупреждение.
- Причина: "Физический диск не может обрабатывать запросы."
- Рекомендуется: "Проверьте надежность сети. Если проблема сохранится, попробуйте заменить устройство".
Виртуальный диск (3)
FaultType: Microsoft.Health.FaultType.VirtualDisks.Требует ремонта
- Уровень серьёзности: информационный
- Причина: "Некоторые данные на этом томе не полностью устойчивы. Они остаются доступными".
- RecommendedAction: "Восстановление устойчивости данных".
FaultType: Microsoft.Health.FaultType.ВиртуальныеДиски.Отключено
- Уровень серьезности: критический
- Причина: "Том недоступен. Некоторые данные могут быть потеряны".
- RecommendedAction: "Проверьте физическое и/или сетевое подключение всех устройств хранения. Возможно, потребуется восстановить данные из резервной копии".
Тип ошибки: Microsoft.Health.FaultType.VirtualDisks.NoRedundancy
- Уровень серьезности: критический
- Причина: "Все копии данных недоступны для региона виртуального диска. Рабочая нагрузка может быть прервана, и могут наблюдаться сбои операций ввода-вывода".
- Рекомендуется: "Если операция обслуживания продолжается, приостанавливайте ее и восстанавливайте доступ ко всему хранилищу, пока хранилище не стабилизируется".
Емкость пула (2)
Тип ошибки: Microsoft.Health.FaultType.StoragePool.TransactionAndCleanupFailure
- Серьезность : предупреждение.
- Причина: "Пул хранения не может записывать в кворум устройств с метаданными. Рабочая нагрузка может быть прервана, и могут наблюдаться сбои в операциях ввода-вывода."
- Рекомендуется: "Если операция обслуживания продолжается, приостанавливайте ее и восстанавливайте доступ ко всему хранилищу, пока хранилище не стабилизируется".
ТипОшибки: Microsoft.Health.FaultType.StoragePool.ПревышенПорогЕмкостиХранилища
- Серьезность : предупреждение.
- Причина: "Пул хранения почти полностью заполнен".
- Рекомендуется: "Добавить дополнительную вместимость в пул хранения или освободить вместимость".
Емкость тома (5)1
FaultType: Microsoft.Health.FaultType.Volume.Capacity
- Серьезность : предупреждение.
- Причина: "Объем выходит из свободного места".
- Рекомендуемое действие: "Расширьте том или перенесите рабочие нагрузки на другие тома".
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Correctable
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила ошибку контрольной суммы и смогла исправить ее".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
ТипОшибки: Microsoft.Health.ТипОшибки.Объем.ФайловаяСистема.Повреждение.Непоправимо
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила ошибку контрольной суммы и не смогла исправить ее".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemoved
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила повреждение файла или папки. Файл или папка удалены из пространства имен файловой системы".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
Тип ошибки: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemovalFailure
- Серьезность : предупреждение.
- Причина: "Файловая система обнаружила повреждение файла или папки. Файловая система, возможно, не удалось удалить ее из пространства имен файловой системы".
- Рекомендуется: "Инициируйте проверку целостности данных из планировщика задач, хранилище может быть плохо. Если происходит операция обновления или обслуживания, остановите ее немедленно. Возможно, потребуется восстановить данные из резервной копии".
Сервер (12)
FaultType: Microsoft.Health.FaultType.Server.Down
- Уровень серьезности: критический
- Причина: "Не удается достичь сервера".
- RecommendedAction: "Пуск или замена сервера".
FaultType: Microsoft.Health.FaultType.Server.Isolated
- Уровень серьезности: критический
- Причина: "Сервер изолирован от кластера из-за проблем с подключением".
- Рекомендуется: "Если изоляция сохраняется, проверьте сети или перенесите рабочие нагрузки на другие узлы".
FaultType: Microsoft.Health.FaultType.Server.Quarantined
- Уровень серьезности: критический
- Причина: "Сервер помещается в карантин кластером из-за повторяющихся сбоев".
- RecommendedAction: "Замените сервер или исправьте сеть".
FaultType: Microsoft.Health.FaultType.Server.Temperature
- Серьезность : предупреждение.
- Причина: "Датчик температуры сервера вызвал предупреждение".
- RecommendedAction: "Проверьте температуру сервера".
Тип сбоя: Microsoft.Health.FaultType.Server.Storage.Degraded
- Серьезность : предупреждение.
- Причина: "Сервер имеет хранилище, которое не завершено или не является актуальным, поэтому нам нужно синхронизировать его с данными других серверов в кластере. Это нормально после перезапуска сервера или сбоя диска".
- RecommendedAction: "Подождите, пока идет синхронизация хранилища. Не удаляйте диски и не перезагружайте никакие серверы в кластере, пока мы не подтвердим, что синхронизация завершена."
FaultType: Microsoft.Health.FaultType.Node.CPUOverloaded
- Серьезность : предупреждение.
- Причина: "Использование ЦП сервера постоянно превышает пороговое значение".
- RecommendedAction: "Перемещение виртуальных машин на другие серверы с меньшим потреблением ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов в кластер (обычно путем добавления серверов).
FaultType: Microsoft.Health.FaultType.Node.VCPUToLCPU
- Серьезность : предупреждение.
- Причина: "Отношение виртуальных процессоров к логическим процессорам (потокам) на этом сервере превысило заданное пороговое значение".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с меньшим использованием ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов в кластер".
ТипОшибки: Microsoft.Health.FaultType.Node.LowFreeRam
- Серьезность : предупреждение.
- Причина: "Доступная память ниже заданного порогового значения".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с меньшим использованием ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов в кластер".
FaultType: Microsoft.Health.FaultType.Node.HighRootPartitionMemoryUsage
- Серьезность : предупреждение.
- Причина: "Windows Server потребляет много физической памяти, которая превышает заданное пороговое значение".
- RecommendedAction: "Проверьте наличие процессов или приложений, потребляющих слишком много памяти, переместите виртуальные машины на другие серверы или добавьте память на серверы".
FaultType: Microsoft.Health.FaultType.Node.TooHighCpuReservation
- Серьезность : предупреждение.
- Причина: "Объединенное резервирование ЦП виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения резервирования ЦП".
FaultType: Microsoft.Health.FaultType.Node.TooHighMemoryUseAfterReclamation
- Серьезность : предупреждение.
- Причина: "Объединенное назначение памяти виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения их назначенной памяти".
FaultType: Microsoft.Health.FaultType.Node.ПостоянноеВысокоеИспользованиеЦП
- Серьезность : предупреждение.
- Причина: "Сервер имеет постоянное превышение порогового значения использования ЦП".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с более низким потреблением ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов".
Кластер (6)
FaultType: Microsoft.Health.FaultType.ClusterQuorumWitness.Error
- Уровень серьезности: критический
- Причина: "Кластер всего в одном сбое сервера от полного выхода из строя".
- RecommendedAction: "Проверьте ресурс-свидетель и перезапустите его по мере необходимости. Запустите или замените вышедшие из строя серверы."
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReport.Failed
- Уровень серьезности: критический
- Причина: "Проверка кластера обнаружила проблемы".
- RecommendedAction: "Проверка кластера обнаружила сбои в некоторых категориях тестов. См. отчет о проверке кластера".
FaultType: Microsoft.Health.FaultType.Cluster.ValidationReportDcb.Failed
- Уровень серьезности: критический
- Причина: "Validate-DCB обнаружил проблемы".
- RecommendedAction: "Validate-DCB обнаружила сетевые ошибки. См. отчет о проверке DCB".
Тип ошибки: Microsoft.Health.FaultType.Cluster.ЧрезмерноеИспользованиеЦП
- Уровень серьезности: критический
- Причина: "Объединенное резервирование ЦП виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения резервирования ЦП".
FaultType: Microsoft.Health.FaultType.Cluster.TooHighMemoryUseAfterReclamation
- Уровень серьезности: критический
- Причина: "Объединенное назначение памяти виртуальных машин на этом сервере превышает заданное пороговое значение".
- Рекомендуется: "Рассмотрите возможность перемещения виртуальных машин или уменьшения их назначенной памяти".
FaultType: Microsoft.Health.FaultType.Cluster.SustainedHighCpuUsage
- Уровень серьезности: критический
- Причина: "Сервер имеет постоянное превышение порогового значения использования ЦП".
- RecommendedAction: "Перемещение виртуальных машин на другой сервер с более низким потреблением ЦП или рассмотрите возможность добавления дополнительных вычислительных ресурсов".
Сетевой адаптер или интерфейс (6)
Тип ошибки: Microsoft.Health.FaultType.NetworkAdapter.Отсоединено
- Серьезность : предупреждение.
- Причина: "Сетевой интерфейс стал отключен".
- RecommendedAction: "Повторно подключите сетевой кабель".
ТипОшибки: Microsoft.Health.FaultType.NetworkInterface.Missing
- Серьезность : предупреждение.
- Причина: "Сервер {server} не имеет сетевых адаптеров, подключенных к сети кластера {cluster network}".
- RecommendedAction: "Подключите сервер к отсутствующей сети кластера."
Тип_ошибки: Microsoft.Health.FaultType.NetworkAdapter.Hardware
- Серьезность : предупреждение.
- Причина: "Сетевой интерфейс имел сбой оборудования".
- RecommendedAction: "Замените сетевой адаптер".
ТипОшибки: Microsoft.Health.FaultType.NetworkAdapter.Disabled
- Серьезность : предупреждение.
- Причина: "Сетевой интерфейс {сетевой интерфейс} не включен и не используется".
- RecommendedAction: "Включить сетевой интерфейс".
FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Alert
- Серьезность : предупреждение.
- Причина: "Кластер обнаружил проблемы с сетевым подключением, которые мешают правильной работе Storage Spaces Direct."
- Рекомендуемое действие: "Убедитесь, что ваша сеть настроена правильно и работает. Если вы используете RDMA Over Конвергентный Ethernet (RoCE), убедитесь, что управление мостами центра обработки данных (DCB), расширенная служба передачи (ETS) и управление приоритетом потока (PFC) настроены правильно и согласованно на каждом узле кластера и физическом коммутаторе. Если вы не знаете, как это сделать, попросите вашего поставщика или кого-то, кому вы доверяете, чтобы помочь вам".
Тип ошибки: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Disabled
- Серьезность : предупреждение.
- Причина: "Кластер обнаружил проблемы с сетевым подключением, которые препятствуют правильной работе Локальные дисковые пространства. Чтобы обеспечить согласованность производительности и безопасности данных, Локальные дисковые пространства перестал использовать удаленный прямой доступ к памяти (RDMA), даже если оборудование с поддержкой RDMA присутствует и включено. Трафик хранилища будет продолжаться, но с снижением производительности с помощью TCP/IP".
- Рекомендуемое действие: "Убедитесь, что ваша сеть правильно настроена и работает, затем снова включите RDMA. Если вы используете RDMA Over Converged Ethernet (RoCE), убедитесь, что Data Center Bridging (DCB), Enhanced Transmission Selection (ETS) и Priority Flow Control (PFC) настроены правильно и согласованно на каждом узле кластера и физическом коммутаторе. Если вы не знаете, как это сделать, попросите вашего поставщика или доверенное лицо помочь вам. Чтобы продолжить работу с отключенным RDMA, вы можете закрыть это уведомление".
Корпус (6)
Тип неисправности: Microsoft.Health.FaultType.StorageEnclosure.LostCommunication
- Серьезность : предупреждение.
- Причина: "Связь была потеряна в корпусе хранилища".
- RecommendedAction: "Включите или замените корпус хранилища."
FaultType: Microsoft.Health.FaultType.StorageEnclosure.FanError
- Серьезность : предупреждение.
- Причина: "Сбой вентилятора в позиции {position} корпуса хранилища".
- RecommendedAction: "Замените вентилятор в контейнере для хранения".
Тип Ошибки: Microsoft.Health.FaultType.StorageEnclosure.CurrentSensorError
- Серьезность : предупреждение.
- Причина: "Текущий датчик в положении {position} хранилища вышел из строя".
- RecommendedAction: "Заменить датчик тока в корпусе хранилища".
ТипОшибки: Microsoft.Health.FaultType.StorageEnclosure.ОшибкаДатчикаНапряжения
- Серьезность : предупреждение.
- Причина: "Датчик напряжения на позиции {положение} корпуса хранилища вышел из строя".
- RecommendedAction: "Замена датчика напряжения в корпусе хранилища".
FaultType: Microsoft.Health.FaultType.StorageEnclosure.IoControllerError
- Серьезность : предупреждение.
- Причина: "Сбой контроллера ввода-вывода в позиции {position} корпуса хранилища".
- RecommendedAction: "Заменить контроллер ввода-вывода в корпусе накопителя".
Тип ошибки: Microsoft.Health.FaultType.Хранилище.ОшибкаДатчикаТемпературы
- Серьезность : предупреждение.
- Причина: "Датчик температуры на позиции {положение} в шкафе хранения вышел из строя".
- RecommendedAction: "Замена датчика температуры в корпусе хранилища".
Развертывание встроенного ПО (3)
ТипОшибка: Microsoft.Health.FaultType.FaultDomain.РежимОбслуживанияНеУспешен
- Серьезность : предупреждение.
- Причина: "В настоящее время не удается добиться прогресса при развертывании встроенного ПО".
- Рекомендуется: "Убедитесь, что все дисковые пространства работоспособны, и что домен сбоя в настоящее время не находится в режиме обслуживания".
ТипОшибка: Microsoft.Health.FaultType.FaultDomain.СбойПроверкиВерсииПрошивки
- Серьезность : предупреждение.
- Причина: "Развертывание встроенного ПО было отменено из-за нечитаемых или непредвиденных сведений о версии встроенного ПО после применения обновления встроенного ПО".
- Рекомендуется: "Перезапустить развертывание прошивки после устранения проблемы с прошивкой".
FaultType: Microsoft.Health.FaultType.FaultDomain.TooManyFailedUpdates (слишком много неудачных обновлений)
- Серьезность : предупреждение.
- Причина: "Развертывание встроенного ПО было отменено из-за слишком большого количества физических дисков, неудачно завершивших попытку обновления встроенного ПО".
- Рекомендуемое действие: "Перезапустите прошивку, после устранения проблемы с прошивкой".
Качество обслуживания хранилища (3)2
FaultType: Microsoft.Health.FaultType.StorQos.InsufficientThroughput
- Серьезность : предупреждение.
- Причина: "Пропускная способность хранилища недостаточно для удовлетворения резервов".
- RecommendedAction: "Перенастройка политик качества обслуживания хранилища".
FaultType: Microsoft.Health.FaultType.StorQos.LostCommunication (Потеря связи)
- Серьезность : предупреждение.
- Причина: "Диспетчер политики качества сервиса хранения потерял связь с диском".
- RecommendedAction: "Перезагрузите узлы {nodes}"
FaultType: Microsoft.Health.FaultType.StorQos.MisconfiguredFlow
- Серьезность : предупреждение.
- Причина: "Один или несколько потребителей хранилища (обычно виртуальные машины) используют несуществующую политику с идентификатором {id}".
- RecommendedAction: "Повторно создайте отсутствующие политики качества обслуживания хранилища".
Vm/VHD (7)
FaultType: Microsoft.Health.FaultType.Vm.BadHealthState
- Серьезность : предупреждение.
- Причина: "Состояние работоспособности виртуальной машины не в порядке".
- Рекомендуемое действие: "Устраните неполадки виртуальной машины."
FaultType: Microsoft.Health.FaultType.Vm.BadOperationalStatus
- Серьезность : предупреждение.
- Причина: "Состояние работы виртуальной машины не в порядке".
- Рекомендуемое действие: "Устраните неполадки виртуальной машины".
Тип ошибки: Microsoft.Health.FaultType.Vm.GuestUnhealthy
- Серьезность : предупреждение.
- Причина: "Гостевая операционная система на виртуальной машине сообщает о неработоспособном состоянии".
- Рекомендуемое действие: "Устраните неполадки виртуальной машины".
FaultType: Microsoft.Health.FaultType.Vm.ConfigIsOffline
- Серьезность : предупреждение.
- Причина: "Ресурс конфигурации виртуальной машины находится в автономном режиме, то есть виртуальная машина не может быть администрирована".
- Рекомендуемое действие: "Включить конфигурацию виртуальной машины в рабочий режим."
FaultType: Microsoft.Health.FaultType.Vm.NotRespondingToControlCodes
- Серьезность : предупреждение.
- Причина: "Виртуальная машина не отвечает на коды управления кластером".
- RecommendedAction: "Проверьте состояние ресурса кластера виртуальной машины".
FaultType: Microsoft.Health.FaultType.Vm.IsNearMemoryLimit
- Серьезность : предупреждение.
- Причина: "Виртуальная машина нуждается в большей части настроенной максимальной памяти".
- Рекомендуется: "Проверка процессов или приложений, потребляющих слишком много памяти, или рассмотрите возможность увеличения максимальной памяти".
FaultType: Microsoft.Health.FaultType.Vhd.Используется почти полностью
- Серьезность : предупреждение.
- Причина: "Виртуальный жесткий диск достиг своей емкости. Никакие данные не могут быть записаны в него, что может негативно повлиять на виртуальные машины".
- RecommendedAction: "Изменение размера виртуального жесткого диска или удаление нежелательных файлов".
1 Указывает, что объем достиг 80 % от полного (незначительная серьезность) или 90 % от полного (значительная серьезность). 2 Указывает, что некоторые VHD-файлы на томе не достигли минимального числа операций ввода-вывода в секунду в течение более чем 10 % (незначительно), 30 % (значительно) или 50 % (критично) времени за скользящее 24-часовое окно.
Примечание.
Работоспособность компонентов корпуса хранилища, таких как вентиляторы, блоки питания и датчики, определяется на основе служб корпуса SCSI (SES). Если поставщик не предоставляет эту информацию, служба здравоохранения ее не отображает.