Partilhar via


Gerenciamento de integridade de memória persistente

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016, Windows 10

Importante

O Azure Stack HCI agora faz parte do Azure Local. A renomeação da documentação do produto está em andamento. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Mais informações.

Este artigo fornece informações sobre tratamento de erros e gerenciamento de integridade específicos para dispositivos de memória persistente (PMem), geralmente chamados de memória de classe de armazenamento (SCM), que é um tipo de mídia não volátil que pode ser usada como armazenamento de camada superior.

Estes vídeos curtos fornecem uma visão geral do suporte do Windows para memória persistente:

Consulte também Compreender e implantar memória persistente.

Os dispositivos de memória persistente são suportados com drivers nativos a partir do Windows Server 2016 e do Windows 10 (versão 1607). Embora os dispositivos de memória persistente se comportem de forma semelhante a outros discos (HDDs e SSDs), existem algumas diferenças.

Um caso de uso comum é quando dois módulos de memória persistente são utilizados como um cache de write-back espelhado em um espaço de armazenamento. Para definir tal configuração, veja Configuring Storage Spaces with a NVDIMM-N write-back cache (Configurar Espaços de Armazenamento com uma cache de write-back do NVDIMM-N).

No Windows Server 2016, a GUI de Espaços de Armazenamento mostra o tipo de barramento NVDIMM-N como UNKNOWN. Ele não tem qualquer perda de funcionalidade ou incapacidade na criação de Pool, VD de armazenamento. Você pode verificar o tipo de barramento executando o seguinte cmdlet:

Get-PhysicalDisk | fl

O parâmetro BusType na saída mostrará corretamente o tipo de barramento como SCM.

Exibir status de integridade da memória persistente

Esta seção descreve como exibir o status de integridade dos módulos de memória persistente. Quando você usa memória persistente, há algumas diferenças na experiência de monitoramento:

  • A memória persistente não cria contadores de desempenho do Disco Físico, pelo que não a verá aparecer em gráficos no Windows Admin Center.
  • A memória persistente não cria dados do Storport 505, portanto, você não obterá deteção proativa de outlier.

Caso contrário, a experiência de monitoramento é a mesma de qualquer outro disco físico.

Você pode consultar a integridade de um disco de memória persistente executando os seguintes cmdlets:

Get-PmemDisk

DiskNumber Size   HealthStatus AtomicityType CanBeRemoved PhysicalDeviceIds UnsafeShutdownCount
---------- ----   ------------ ------------- ------------ ----------------- -------------------
2          252 GB Unhealthy    None          True         {20, 120}         2
3          252 GB Healthy      None          True         {1020, 1120}      0

Get-PmemDisk | Get-PhysicalDisk | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

SerialNumber               HealthStatus OperationalStatus  OperationalDetails
------------               ------------ ------------------ ------------------
802c-01-1602-117cb5fc      Healthy      OK
802c-01-1602-117cb64f      Warning      Predictive Failure {Threshold Exceeded,NVDIMM_N Error}

Vale a pena notar que você pode obter as mesmas informações usando o Get-PhysicalDisk cmdlet e especificando o BusType como SCM:

Get-PhysicalDisk | where BusType -eq "SCM" | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails

Nota

Para localizar o local físico de um dispositivo de memória persistente especificado em um evento, na guia Detalhes do evento no Visualizador de Eventos, vá para Local de Dados>de Evento. Observe que o Windows Server 2016 lista o local incorreto de dispositivos de memória persistente, mas isso é corrigido no Windows Server, versão 1709.

HealthStatus mostra se o disco de memória persistente está íntegro.

O valor UnsafeshutdownCount rastreia o número de desligamentos que podem causar perda de dados neste disco lógico. É a soma das contagens de desligamento inseguro de todos os dispositivos de memória persistente subjacentes deste disco. Para obter mais informações sobre o status de integridade, use o Get-PmemPhysicalDevice cmdlet para localizar informações como OperationalStatus.

Get-PmemPhysicalDevice

DeviceId DeviceType           HealthStatus OperationalStatus PhysicalLocation FirmwareRevision Persistent memory size Volatile memory size
-------- ----------           ------------ ----------------- ---------------- ---------------- ---------------------- --------------------
1020     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_C1     102005310        126 GB                 0 GB
1120     Intel INVDIMM device Healthy      {Ok}              CPU2_DIMM_F1     102005310        126 GB                 0 GB
120      Intel INVDIMM device Healthy      {Ok}              CPU1_DIMM_F1     102005310        126 GB                 0 GB
20       Intel INVDIMM device Unhealthy    {HardwareError}   CPU1_DIMM_C1     102005310        126 GB                 0 GB

Este cmdlet mostra qual dispositivo de memória persistente não está íntegro. O dispositivo não íntegro (DeviceId 20) corresponde ao caso no exemplo anterior. O PhysicalLocation no BIOS pode ajudar a identificar qual dispositivo de memória persistente está em estado defeituoso.

Para ajudar a compreender as várias condições de estado de funcionamento, veja as secções seguintes.

Estado de funcionamento do aviso

Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê que seu Status de Integridade está listado como Aviso, conforme mostrado na saída deste exemplo:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Bom estado de funcionamento OK
802c-01-1602-117cb64f Aviso Falha Preditiva {Limite excedido,erro NVDIMM_N}

A tabela a seguir lista algumas informações sobre essa condição.

Heading Description
Condição provável Limiar de aviso violado
Causa Raiz Os dispositivos de memória persistente rastreiam vários limites, como temperatura, vida útil do NVM e/ou vida útil da fonte de energia. Quando um desses limiares é excedido, o sistema operativo é notificado.
Comportamento geral O dispositivo permanece totalmente operacional. Este é um aviso, não um erro.
Comportamento de Espaços de Armazenamento O dispositivo permanece totalmente operacional. Este é um aviso, não um erro.
Mais informações Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operacional
O que fazer Dependendo do limiar de aviso violado, pode ser prudente substituir o dispositivo de memória persistente.

Falha nas gravações em um dispositivo de memória persistente

Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê o Status de Integridade listado como Não Íntegro, e o Status Operacional menciona um Erro de E/S, conforme mostrado na saída deste exemplo:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Bom estado de funcionamento OK
802c-01-1602-117cb64f Mau estado de funcionamento {Metadados Obsoletos, Erro de E/S, Erro Transitório} {Persistência de Dados Perdidos, Dados Perdidos, NV…}

A tabela a seguir lista algumas informações sobre essa condição.

Heading Description
Condição provável Perda de persistência/energia de backup
Causa Raiz Os dispositivos de memória persistente dependem de uma fonte de alimentação de reserva para a sua persistência – normalmente uma bateria ou uma supertampa. Se esta energia de reserva estiver indisponível ou se o dispositivo não puder, por qualquer motivo, realizar uma cópia de segurança (Erro de Controlador/Flash), os dados estarão em risco e o Windows impedirá qualquer escrita adicional nos dispositivos afetados. As leituras ainda são possíveis para evacuar dados.
Comportamento geral O volume NTFS será desmontado.
O campo Status de integridade do disco físico mostrará "Não íntegro" para todos os dispositivos NVDIMM-N afetados.
Comportamento de Espaços de Armazenamento O Espaço de Armazenamento permanecerá operacional enquanto apenas um módulo de memória persistente for afetado. Se forem afetados vários dispositivos, a escrita no Espaço de Armazenamento falhará.
O campo Status de integridade do disco físico mostrará "Não íntegro" para todos os dispositivos de memória persistente afetados.
Mais informações Campo OperationalStatus do objeto PhysicalDisk.
EventLog – Microsoft-Windows-ScmDisk0101/Operacional
O que fazer Recomendamos fazer backup dos dados do PMem afetado. Para obter acesso de leitura, pode colocar o disco online manualmente (este aparecerá como volume NTFS só de leitura).

Para limpar totalmente essa condição, a causa raiz deve ser resolvida (ou seja, fonte de alimentação de serviço ou substituir o módulo de memória persistente, dependendo do problema) e o volume no módulo deve ser colocado offline e colocado online novamente, ou o sistema deve ser reiniciado.

Para tornar o módulo de memória persistente utilizável em Espaços de Armazenamento novamente, use o Reset-PhysicalDisk cmdlet, que reintegra o dispositivo e inicia o processo de reparo.

O dispositivo é mostrado com uma capacidade de '0' bytes ou como um "Disco Físico Genérico"

Essa condição está presente quando um dispositivo de memória persistente é mostrado com uma capacidade de 0 bytes e não pode ser inicializado, ou é exposto como um objeto "Generic Physical Disk" sem número de série que exibe um status operacional de comunicação perdida, como mostrado na saída deste exemplo:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Bom estado de funcionamento OK
Aviso Comunicação Perdida

A tabela a seguir lista algumas informações sobre essa condição.

Heading Description
Condição provável O BIOS não expôs o módulo de memória persistente ao SO
Causa Raiz Os dispositivos de memória persistente são baseados em DRAM. Quando um endereço DRAM danificado é referenciado, a maioria das CPUs iniciará uma verificação do computador e reiniciará o servidor. Algumas plataformas de servidor desmapeiam o módulo de memória persistente, impedindo que o sistema operacional o acesse e potencialmente causando outra verificação da máquina. Isso também pode ocorrer se o BIOS detetar que o módulo de memória persistente falhou e precisa ser substituído.
Comportamento geral O módulo de memória persistente é mostrado como não inicializado, com uma capacidade de 0 bytes e não pode ser lido ou gravado.
Comportamento de Espaços de Armazenamento O espaço de armazenamento permanece operacional (desde que apenas um módulo de memória persistente seja afetado).
O objeto PMem PhysicalDisk é mostrado com um Status de Integridade de Aviso e como um "Disco Físico Geral"
Mais informações Campo OperationalStatus do objeto PhysicalDisk.
EventLog – Microsoft-Windows-ScmDisk0101/Operacional
O que fazer O dispositivo de memória persistente deve ser substituído ou limpo, de modo que a plataforma do servidor o exponha ao sistema operacional host novamente. Recomenda-se a substituição do dispositivo, uma vez que podem ocorrer mais erros incorrigíveis. A adição de um dispositivo de substituição a uma configuração de espaços de armazenamento pode ser obtida com o Add-PhysicalDisk cmdlet.

O dispositivo é mostrado como um disco RAW ou vazio após uma reinicialização

Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê um Status de Integridade de Não Íntegro e Status Operacional de Metadados Não Reconhecidos, conforme mostrado nesta saída de exemplo:

SerialNumber HealthStatus OperationalStatus OperationalDetails
802c-01-1602-117cb5fc Bom estado de funcionamento OK {Desconhecido}
802c-01-1602-117cb64f Mau estado de funcionamento {Metadados Não Reconhecidos, Metadados Obsoletos} {Desconhecido}

A tabela a seguir lista algumas informações sobre essa condição.

Heading Description
Condição provável Falha de Cópia de Segurança/Restauro
Causa raiz Uma falha no procedimento de backup ou restauração provavelmente resultará na perda de todos os dados no módulo de memória persistente. Quando o sistema operacional carrega, ele aparecerá como um novo dispositivo de memória persistente sem uma partição ou sistema de arquivos e aparecerá como RAW, o que significa que não tem um sistema de arquivos.
Comportamento geral A memória persistente estará no modo somente leitura. É necessária uma ação do utilizador explícita para começar a utilizá-lo novamente.
Comportamento de Espaços de Armazenamento Os Espaços de Armazenamento permanecem operacionais se apenas um módulo de memória persistente for afetado).
O objeto de disco físico PMem será mostrado com o Status de Integridade "Não Íntegro" e não é usado pelos Espaços de Armazenamento.
Mais informações Campo OperationalStatus do objeto PhysicalDisk.
EventLog – Microsoft-Windows-ScmDisk0101/Operacional
O que fazer Se o usuário não quiser substituir o dispositivo afetado, ele poderá usar o Reset-PhysicalDisk cmdlet para limpar a condição somente leitura no módulo de memória persistente afetado. Em ambientes de Espaços de Armazenamento, isso também tentará reintegrar o módulo de memória persistente em Espaços de Armazenamento e iniciar o processo de reparo.

Próximos passos

Para obter informações relacionadas, consulte também: