Gerenciamento de saúde da memória persistente
Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016, Windows 10
Este artigo fornece informações sobre tratamento de erros e gerenciamento de integridade específicos para dispositivos de memória persistente (PMem), muitas vezes chamado de SCM (memória de classe de armazenamento), que é um tipo de mídia não volátil que pode ser usada como armazenamento de camada superior.
Estes vídeos curtos fornecem uma visão geral do suporte do Windows para memória persistente:
- usando memória não volátil (NVDIMM-N) como armazenamento em bloco no Windows Server 2016
- usando memória não volátil (NVDIMM-N) como armazenamento Byte-Addressable no Windows Server 2016
Consulte também Entender e implantar memória persistente.
Há suporte para dispositivos de memória persistente com drivers nativos a partir do Windows Server 2016 e do Windows 10 (versão 1607). Embora os dispositivos de memória persistente se comportem semelhantes a outros discos (HDDs e SSDs), há algumas diferenças.
Um caso de uso comum é em que dois módulos de memória persistente são utilizados como um cache de gravação de retorno espelhado em um espaço de armazenamento. Para configurar tal configuração, consulte a seção sobre a configuração de Espaços de Armazenamento com um cache de gravação NVDIMM-N.
No Windows Server 2016, a interface gráfica dos Espaços de Armazenamento mostra o tipo de barramento NVDIMM-N como DESCONHECIDO. Ele não tem nenhuma perda de funcionalidade ou incapacidade na criação de Pool, VD de armazenamento. Você pode verificar o tipo de barramento executando o seguinte cmdlet:
Get-PhysicalDisk | fl
O parâmetro BusType na saída mostra corretamente o tipo de barramento como SCM.
Exibir o status de integridade da memória persistente
Esta seção descreve como exibir o status de integridade dos módulos de memória persistente. Quando você usa memória persistente, há algumas diferenças na experiência de monitoramento:
- A memória persistente não cria contadores de desempenho do Disco Físico, portanto, você não o verá em gráficos no Windows Admin Center.
- A memória persistente não cria dados do Storport 505, portanto, você não terá detecção proativa de anomalias.
Caso contrário, a experiência de monitoramento é a mesma de qualquer outro disco físico.
Você pode consultar a integridade de um disco de memória persistente executando os seguintes cmdlets:
Get-PmemDisk
DiskNumber Size HealthStatus AtomicityType CanBeRemoved PhysicalDeviceIds UnsafeShutdownCount
---------- ---- ------------ ------------- ------------ ----------------- -------------------
2 252 GB Unhealthy None True {20, 120} 2
3 252 GB Healthy None True {1020, 1120} 0
Get-PmemDisk | Get-PhysicalDisk | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails
SerialNumber HealthStatus OperationalStatus OperationalDetails
------------ ------------ ------------------ ------------------
802c-01-1602-117cb5fc Healthy OK
802c-01-1602-117cb64f Warning Predictive Failure {Threshold Exceeded,NVDIMM_N Error}
Vale a pena observar que você pode obter as mesmas informações usando o cmdlet Get-PhysicalDisk
e especificando o BusType como SCM:
Get-PhysicalDisk | where BusType -eq "SCM" | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails
Nota
Para localizar a localização física de um dispositivo de memória persistente especificado em um evento, na guia Detalhes do evento no Visualizador de Eventos, vá para EventData>Location. Observe que o Windows Server 2016 lista o local incorreto de dispositivos de memória persistente, mas isso é corrigido no Windows Server, versão 1709.
HealthStatus mostra se o disco de memória persistente está íntegro.
O valor UnsafeshutdownCount controla o número de desligamentos que podem causar perda de dados nesse disco lógico. É a soma das contagens de desligamentos não seguros de todos os dispositivos de memória persistente subjacentes deste disco. Para obter mais informações sobre o estado de saúde, use o cmdlet Get-PmemPhysicalDevice
para localizar informações como OperationalStatus.
Get-PmemPhysicalDevice
DeviceId DeviceType HealthStatus OperationalStatus PhysicalLocation FirmwareRevision Persistent memory size Volatile memory size
-------- ---------- ------------ ----------------- ---------------- ---------------- ---------------------- --------------------
1020 Intel INVDIMM device Healthy {Ok} CPU2_DIMM_C1 102005310 126 GB 0 GB
1120 Intel INVDIMM device Healthy {Ok} CPU2_DIMM_F1 102005310 126 GB 0 GB
120 Intel INVDIMM device Healthy {Ok} CPU1_DIMM_F1 102005310 126 GB 0 GB
20 Intel INVDIMM device Unhealthy {HardwareError} CPU1_DIMM_C1 102005310 126 GB 0 GB
Este cmdlet mostra qual dispositivo de memória persistente está com problema. O dispositivo defeituoso (DeviceId 20) corresponde ao caso no exemplo anterior. O PhysicalLocation no BIOS pode ajudar a identificar qual dispositivo de memória persistente está com falha.
Para entender as várias condições de saúde, consulte as seções a seguir.
Status de Alerta de Saúde
Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê que seu Status de Integridade está listado como Aviso, conforme mostrado nesta saída de exemplo:
Número de Série | Estado de Saúde | OperationalStatus | Detalhes Operacionais |
---|---|---|---|
802c-01-1602-117cb5fc | Saudável | OKEY | |
802c-01-1602-117cb64f | Aviso | Falha preditiva | {Limite Excedido,NVDIMM_N Erro} |
A tabela a seguir lista algumas informações sobre essa condição.
Título | Descrição |
---|---|
Condição provável | Limite de aviso violado |
Causa raiz | Os dispositivos de memória persistente rastreiam vários limites, como temperatura, tempo de vida de NVM e/ou tempo de vida da fonte de energia. Quando um desses limites é excedido, o sistema operacional é notificado. |
Comportamento geral | O dispositivo permanece totalmente operacional. Isso é um aviso, não um erro. |
Comportamento dos Espaços de Armazenamento | O dispositivo permanece totalmente operacional. Isso é um aviso, não um erro. |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operational |
O que fazer | Dependendo do limite de aviso violado, pode ser prudente substituir o dispositivo de memória persistente. |
As gravações em um dispositivo de memória persistente falham
Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê o Status de Integridade listado como não íntegro e o Status Operacional menciona um erro de E/S , conforme mostrado nesta saída de exemplo:
Número de Série | Estado de Saúde | OperationalStatus | Detalhes Operacionais |
---|---|---|---|
802c-01-1602-117cb5fc | Saudável | OKEY | |
802c-01-1602-117cb64f | Insalubre | {Metadados obsoletos, erro de E/S, erro transitório} | {Persistência de Dados Perdidos, Dados Perdidos, NV...} |
A tabela a seguir lista algumas informações sobre essa condição.
Cabeçalho | Descrição |
---|---|
Condição provável | Perda de persistência/energia de backup |
Causa raiz | Os dispositivos de memória persistente dependem de uma fonte de energia de backup para manter seus dados – geralmente uma bateria ou um supercapacitador. Se essa fonte de energia de backup não estiver disponível ou se o dispositivo não puder executar um backup por qualquer motivo (Erro de Controlador/Flash), os dados ficarão em risco e o Windows impedirá novas gravações nos dispositivos afetados. Ainda é possível realizar leituras para transferir os dados. |
Comportamento geral | O volume NTFS será desmontado. O campo Status de Integridade do PhysicalDisk mostrará "Não saudável" para todos os dispositivos NVDIMM-N afetados. |
Comportamento dos Espaços de Armazenamento | O Espaço de Armazenamento permanecerá operacional enquanto apenas um módulo de memória persistente for afetado. Se vários dispositivos forem afetados, as gravações no Espaço de Armazenamento falharão. O campo Status de Integridade do PhysicalDisk mostrará "Não íntegro" para todos os dispositivos de memória persistente afetados. |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operational |
O que fazer | Recomendamos fazer backup dos dados do PMem afetados. Para obter acesso de leitura, você pode colocar manualmente o disco online (ele será exibido como um volume NTFS somente leitura). Para limpar totalmente essa condição, a causa raiz deve ser resolvida (ou seja, o fornecimento de energia do serviço deve ser restabelecido ou o módulo de memória persistente substituído, dependendo do problema). Além disso, o volume no módulo deve ser desativado e reativado ou o sistema deve ser reiniciado. Para tornar o módulo de memória persistente utilizável nos Espaços de Armazenamento novamente, use o cmdlet Reset-PhysicalDisk , que reintegra o dispositivo e inicia o processo de reparo. |
O dispositivo é mostrado com uma capacidade de '0' bytes ou como um "Disco Físico Genérico"
Essa condição está presente quando um dispositivo de memória persistente é mostrado com uma capacidade de 0 bytes e não pode ser inicializado, ou é exposto como um objeto "Disco Físico Genérico" sem um número de série que exibe um Status Operacional de Comunicação Perdida , conforme mostrado nesta saída de exemplo.
Número de Série | Status de Saúde | OperationalStatus | Detalhes Operacionais |
---|---|---|---|
802c-01-1602-117cb5fc | Saudável | OKEY | |
Aviso | Comunicação perdida |
A tabela a seguir lista algumas informações sobre essa condição.
Título | Descrição |
---|---|
Condição provável | O BIOS não expôs o módulo de memória persistente ao sistema operacional |
Causa raiz | Os dispositivos de memória persistente são baseados em DRAM. Quando um endereço DRAM corrompido é referenciado, a maioria das CPUs iniciará uma verificação de computador e reiniciará o servidor. Algumas plataformas de servidor, em seguida, desmapeiam o módulo de memória persistente, impedindo o sistema operacional de acessá-lo e potencialmente causando outra checagem de máquina. Isso também pode ocorrer se o BIOS detectar que o módulo de memória persistente falhou e precisa ser substituído. |
Comportamento geral | O módulo de memória persistente é mostrado como não inicializado, com uma capacidade de 0 bytes e não pode ser lido ou gravado. |
Comportamento dos Espaços de Armazenamento | O Espaço de Armazenamento permanece operacional (desde que apenas um módulo de memória persistente seja afetado). O objeto PMem PhysicalDisk é mostrado com a Condição de Saúde de Aviso e como um "Disco Físico Comum" |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. Registro de Eventos – Microsoft-Windows-ScmDisk0101/Operacional |
O que fazer | O dispositivo de memória persistente deve ser substituído ou higienizado, de modo que a plataforma do servidor o exponha ao sistema operacional host novamente. A substituição do dispositivo é recomendada, pois podem ocorrer erros mais não correcionáveis. A adição de um dispositivo de substituição a uma configuração de espaços de armazenamento pode ser obtida com o cmdlet Add-PhysicalDisk . |
O dispositivo é mostrado como um disco RAW ou vazio após uma reinicialização
Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê um status de integridade de não saudável e um status operacional de metadados não reconhecidos, como mostrado neste exemplo de saída.
Número de Série | Estado de Saúde | OperationalStatus | Detalhes Operacionais |
---|---|---|---|
802c-01-1602-117cb5fc | Saudável | OKEY | {Unknown} |
802c-01-1602-117cb64f | Insalubre | {Metadados Não Reconhecidos, Metadados Obsoletos} | {Unknown} |
A tabela a seguir lista algumas informações sobre essa condição.
Título | Descrição |
---|---|
Condição provável | Falha de backup/restauração |
Causa raiz | Uma falha no procedimento de backup ou restauração provavelmente resultará na perda de todos os dados no módulo de memória persistente. Quando o sistema operacional for carregado, ele aparecerá como um novo dispositivo de memória persistente sem uma partição ou sistema de arquivos e será exibido como RAW, o que significa que ele não tem um sistema de arquivos. |
Comportamento geral | A memória persistente estará no modo somente leitura. É necessária uma ação explícita do usuário para começar a usá-la novamente. |
Comportamento dos Espaços de Armazenamento | Os Espaços de Armazenamento permanecerão operacionais se apenas um módulo de memória persistente for afetado. O objeto de disco físico PMem será mostrado com o Estado de Saúde "Não Saudável" e não é utilizado pelos Espaços de Armazenamento. |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operational |
O que fazer | Se o usuário não quiser substituir o dispositivo afetado, ele poderá usar o cmdlet Reset-PhysicalDisk para limpar a condição somente leitura no módulo de memória persistente afetado. Em ambientes de Espaços de Armazenamento, isso também tentará reintegrar o módulo de memória persistente em Espaços de Armazenamento e iniciar o processo de reparo. |
Próximas etapas
Para obter informações relacionadas, consulte também: