Поделиться через


Управление работоспособностью постоянной памяти

Область применения: Azure Stack HCI, версии 22H2 и 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016, Windows 10

Внимание

Azure Stack HCI теперь является частью Azure Local. Выполняется переименование документации по продукту. Однако старые версии Azure Stack HCI, например 22H2, будут продолжать ссылаться на Azure Stack HCI и не отражают изменение имени. Подробнее.

В этой статье содержатся сведения об обработке ошибок и управлении работоспособностью, характерных для устройств с постоянной памятью (PMem), часто называемой памятью класса хранилища (SCM), которая является типом ненезависимого носителя, который можно использовать в качестве хранилища верхнего уровня.

Эти короткие видеоролики предоставляют обзор поддержки Windows для постоянной памяти:

См. также раздел "Общие сведения о постоянной памяти" и "Развертывание постоянной памяти".

Устройства постоянной памяти поддерживаются с собственными драйверами, начиная с Windows Server 2016 и Windows 10 (версия 1607). Хотя устройства постоянной памяти работают аналогично другим дискам (HDD и SSD), существуют некоторые различия.

Распространенный вариант использования заключается в том, что два модуля постоянной памяти используются в качестве зеркального кэша обратной записи в хранилище. Чтобы настроить такую конфигурацию, см. статью о настройке дисковых пространств с кэшем обратной записи NVDIMM-N.

В Windows Server 2016 графический интерфейс дисковые пространства отображает тип шины NVDIMM-N как UNKNOWN. Он не имеет никаких функциональных возможностей или невозможности создания пула, VD хранилища. Чтобы проверить тип шины, выполните следующий командлет:

Get-PhysicalDisk | fl

Параметр BusType в выходных данных правильно отображает тип шины как SCM.

Просмотр состояния работоспособности постоянной памяти

В этом разделе описывается, как просмотреть состояние работоспособности модулей постоянной памяти. При использовании постоянной памяти существует несколько различий в интерфейсе мониторинга.

  • Постоянная память не создает счетчики производительности физического диска, поэтому вы не увидите его на диаграммах в Windows Admin Center.
  • Постоянная память не создает данные Storport 505, поэтому вы не получите упреждающее обнаружение.

В противном случае интерфейс мониторинга совпадает с любым другим физическим диском.

Вы можете запросить работоспособность диска постоянной памяти, выполнив следующие командлеты:

Get-PmemDisk

DiskNumber Size   HealthStatus AtomicityType CanBeRemoved PhysicalDeviceIds UnsafeShutdownCount
---------- ----   ------------ ------------- ------------ ----------------- -------------------
2          252 GB Unhealthy    None          True         {20, 120}         2
3          252 GB Healthy      None          True         {1020, 1120}      0

Get-PmemDisk | Get-PhysicalDisk | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

SerialNumber               HealthStatus OperationalStatus  OperationalDetails
------------               ------------ ------------------ ------------------
802c-01-1602-117cb5fc      Healthy      OK
802c-01-1602-117cb64f      Warning      Predictive Failure {Threshold Exceeded,NVDIMM_N Error}

Следует отметить, что вы можете получить те же сведения с помощью командлета Get-PhysicalDisk и указать BusType как SCM:

Get-PhysicalDisk | where BusType -eq "SCM" | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

Примечание.

Чтобы найти физическое расположение устройства постоянной памяти, указанного в событии, на вкладке "Сведения" события в Просмотр событий перейдите в расположение EventData>. Обратите внимание, что Windows Server 2016 перечисляет неправильное расположение устройств постоянной памяти, но это исправлено в Windows Server версии 1709.

HealthStatus показывает, является ли диск постоянной памяти работоспособным.

Значение UnsafeshutdownCount отслеживает количество завершений работы, которые могут привести к потере данных на этом логическом диске. Это сумма небезопасных счетчиков завершения работы всех базовых устройств постоянной памяти этого диска. Дополнительные сведения о состоянии работоспособности используйте Get-PmemPhysicalDevice командлет для поиска таких сведений, как OperationsStatus.

Get-PmemPhysicalDevice

DeviceId DeviceType           HealthStatus OperationalStatus PhysicalLocation FirmwareRevision Persistent memory size Volatile memory size
-------- ----------           ------------ ----------------- ---------------- ---------------- ---------------------- --------------------
1020     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_C1     102005310        126 GB                 0 GB
1120     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_F1     102005310        126 GB                 0 GB
120      Intel INVDIMM device Healthy      {Ok}              CPU1_DIMM_F1     102005310        126 GB                 0 GB
20       Intel INVDIMM device Unhealthy    {HardwareError}   CPU1_DIMM_C1     102005310        126 GB                 0 GB

Этот командлет показывает, какое устройство постоянной памяти неработоспособно. Неработоспособное устройство (DeviceId 20) соответствует варианту в предыдущем примере. PhysicalLocation в BIOS может помочь определить, какое устройство постоянной памяти находится в состоянии сбоя.

Для получения сведений о различных состояниях работоспособности см. следующие разделы.

Состояние работоспособности предупреждений

Это условие присутствует при проверке работоспособности устройства постоянной памяти и отображается, что состояние работоспособности отображается как предупреждение, как показано в этом примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК
802c-01-1602-117cb64f Предупреждение Прогнозируемый сбой {Превышено пороговое значение,NVDIMM_N ошибка}

В следующей таблице перечислены некоторые сведения об этом условии.

Заголовок Description
Вероятное состояние Пороговое значение предупреждения нарушено
Причина Устройства постоянной памяти отслеживают различные пороговые значения, такие как температура, время существования NVM и (или) время существования источника энергии. При превышении одного из этих пороговых значений в операционную систему поступает соответствующее уведомление.
Общее поведение Устройство сохраняет полную работоспособность. Это предупреждение, а не ошибка.
Поведение дисковых пространств Устройство сохраняет полную работоспособность. Это предупреждение, а не ошибка.
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk. Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Что следует делать В зависимости от порогового значения предупреждения может быть разумно заменить устройство постоянной памяти.

Сбой записи на устройство постоянной памяти

Это условие присутствует при проверке работоспособности устройства постоянной памяти и отображается состояние работоспособности, указанное как неработоспособное, и состояние эксплуатации упоминает ошибку ввода-вывода, как показано в этом примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК
802c-01-1602-117cb64f Unhealthy {Устаревшие метаданные, ошибка ввода-вывода, временная ошибка} {Потеря сохраняемости данных, потеря данных, NV...}

В следующей таблице перечислены некоторые сведения об этом условии.

Заголовок Description
Вероятное состояние Потеря сохраняемости и резервного копирования
Причина Устройства постоянной памяти используют резервный источник питания для их сохраняемости — обычно батарею или супер-крышку. Если резервный источник питания недоступен или устройство не может его использовать по любой причине (ошибка контроллера или флэш-памяти), данные подвергаются риску и ОС Windows запрещает для таких устройств любые последующие операции записи. Для эвакуации данных сохраняется возможность чтения.
Общее поведение Том NTFS будет отключен.
Поле "Состояние работоспособности PhysicalDisk" отображает "Неработоспособное" для всех затронутых устройств NVDIMM-N.
Поведение дисковых пространств Дисковое пространство будет оставаться в рабочем состоянии до тех пор, пока затрагивается только один модуль постоянной памяти. Если в зону риска попадет несколько устройств, запись в дисковом пространстве не будет выполнена.
В поле "Состояние работоспособности PhysicalDisk" отображается "Неработоспособное" для всех затронутых устройств постоянной памяти.
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk.
Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Что следует делать Мы рекомендуем создать резервную копию затронутых данных PMem. Чтобы получить доступ для чтения, можно вручную перевести диск в оперативный режим (он отобразится как том NTFS только для чтения).

Чтобы полностью очистить это условие, первопричина должна быть устранена (т. е. питание службы или замена модуля постоянной памяти в зависимости от проблемы) и том в модуле должен быть снят в автономном режиме и снова подключен к сети, или система должна быть перезапущена.

Чтобы сделать модуль постоянной памяти пригодным для использования в дисковые пространства снова, используйте Reset-PhysicalDisk командлет, который повторно интегрирует устройство и запускает процесс восстановления.

Устройство отображается с емкостью 0 байт или как универсальный физический диск.

Это условие присутствует, когда устройство постоянной памяти отображается с емкостью 0 байтов и не может быть инициализировано или предоставляется как объект "Универсальный физический диск" без серийного номера, отображающего состояние потери связи, как показано в этом примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК
Предупреждение Связь потеряна

В следующей таблице перечислены некоторые сведения об этом условии.

Заголовок Description
Вероятное состояние BIOS не предоставлял модуль постоянной памяти операционной системе
Причина Устройства постоянной памяти основаны на DRAM. При ссылке на поврежденный адрес DRAM большинство процессоров инициируют проверку компьютера и перезагрузку сервера. Затем некоторые серверные платформы не поменит модуль постоянной памяти, предотвращая доступ к ОС и потенциально вызывая проверку другого компьютера. Это также может произойти, если BIOS обнаруживает, что модуль постоянной памяти завершился сбоем и его необходимо заменить.
Общее поведение Модуль постоянной памяти отображается как неинициализированный с емкостью 0 байтов и не может быть прочитан или записан.
Поведение дисковых пространств Дисковое пространство остается операционным (при условии, что затрагивается только один модуль постоянной памяти).
Объект PMem PhysicalDisk отображается с состоянием работоспособности предупреждения и как "Общий физический диск"
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk.
Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Что следует делать Устройство постоянной памяти должно быть заменено или дезинфисировано таким образом, чтобы серверная платформа снова предоставила ей операционную систему узла. Рекомендуется заменить устройство, так как могут возникнуть более незаменяемые ошибки. Добавление устройства замены в конфигурацию дисковых пространств можно достичь с помощью командлета Add-PhysicalDisk .

Устройство отображается как необработанный или пустой диск после перезагрузки

Это условие присутствует при проверке работоспособности устройства постоянной памяти и отображается состояние работоспособности неработоспособного и рабочего состояния нераспознанных метаданных, как показано в этом примере выходных данных:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Работоспособно ОК {Неизвестно}
802c-01-1602-117cb64f Unhealthy {Нераспознанные метаданные, устаревшие метаданные} {Неизвестно}

В следующей таблице перечислены некоторые сведения об этом условии.

Заголовок Description
Вероятное состояние Сбой резервного копирования/восстановления
Основная причина Сбой в процедуре резервного копирования или восстановления, скорее всего, приведет к потере всех данных модуля постоянной памяти. Когда операционная система загружается, она будет отображаться как новое устройство постоянной памяти без секции или файловой системы и поверхности в виде RAW, что означает, что у него нет файловой системы.
Общее поведение Сохраняемая память будет находиться в режиме только для чтения. Для возобновления использования потребуется явное действие пользователя.
Поведение дисковых пространств дисковые пространства остается операционным, если затрагивается только один модуль постоянной памяти).
Объект физического диска PMem будет отображаться с состоянием работоспособности "Неработоспособное" и не используется дисковые пространства.
Дополнительные сведения Поле OperationalStatus объекта PhysicalDisk.
Журнал событий — Microsoft-Windows-ScmDisk0101/Operational
Что следует делать Если пользователь не хочет заменить затронутого устройства, он может использовать Reset-PhysicalDisk командлет для очистки условия только для чтения в затронутом модуле постоянной памяти. В средах дисковые пространства это также попытается повторно интегрировать модуль постоянной памяти в дисковые пространства и запустить процесс восстановления.

Следующие шаги

Дополнительные сведения см. также: