Gerenciamento de integridade de memória persistente
Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019, Windows Server 2016, Windows 10
Importante
O Azure Stack HCI agora faz parte do Azure Local. A renomeação da documentação do produto está em andamento. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo, 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Saiba mais.
Este artigo fornece informações sobre tratamento de erros e gerenciamento de integridade específicos para dispositivos de memória persistente (PMem), geralmente chamados de memória de classe de armazenamento (SCM), que é um tipo de mídia não volátil que pode ser usada como armazenamento de nível superior.
Esses vídeos curtos fornecem uma visão geral do suporte do Windows para memória persistente:
- Usando memória não volátil (NVDIMM-N) como armazenamento em bloco no Windows Server 2016
- Usando memória não volátil (NVDIMM-N) como armazenamento endereçável por bytes no Windows Server 2016
Consulte também Entender e implantar memória persistente.
Há suporte para dispositivos de memória persistente com drivers nativos a partir de Windows Server 2016 e Windows 10 (versão 1607). Embora os dispositivos de memória persistente se comportem de maneira semelhante a outros discos (HDDs e SSDs), existem algumas diferenças.
Um caso de uso comum é quando dois módulos de memória persistente são utilizados como um cache de write-back espelhado em um espaço de armazenamento. Para definir essa configuração, confira Configurar espaços de armazenamento com um cache de write-back NVDIMM-N.
No Windows Server 2016, a GUI de Espaços de Armazenamento mostra o tipo de barramento NVDIMM N como DESCONHECIDO. Ele não tem nenhuma perda de funcionalidade ou incapacidade na criação de Pool, Storage VD. Você pode verificar o tipo de barramento executando o seguinte cmdlet:
Get-PhysicalDisk | fl
O parâmetro BusType na saída mostrará corretamente o tipo de barramento como SCM.
Exibir o status de integridade da memória persistente
Esta seção descreve como visualizar o status de integridade de seus módulos de memória persistente. Quando você usa memória persistente, há algumas diferenças na experiência de monitoramento:
- A memória persistente não cria contadores de desempenho do Disco Físico, portanto, você não a verá aparecer em gráficos no Windows Admin Center.
- A memória persistente não cria dados do Storport 505, portanto, você não obterá detecção proativa de exceções.
Caso contrário, a experiência de monitoramento será a mesma de qualquer outro disco físico.
Você pode consultar a integridade de um disco de memória persistente executando os seguintes cmdlets:
Get-PmemDisk
DiskNumber Size HealthStatus AtomicityType CanBeRemoved PhysicalDeviceIds UnsafeShutdownCount
---------- ---- ------------ ------------- ------------ ----------------- -------------------
2 252 GB Unhealthy None True {20, 120} 2
3 252 GB Healthy None True {1020, 1120} 0
Get-PmemDisk | Get-PhysicalDisk | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails
SerialNumber HealthStatus OperationalStatus OperationalDetails
------------ ------------ ------------------ ------------------
802c-01-1602-117cb5fc Healthy OK
802c-01-1602-117cb64f Warning Predictive Failure {Threshold Exceeded,NVDIMM_N Error}
Vale a pena observar que você pode obter as mesmas informações usando o Get-PhysicalDisk
cmdlet e especificando o BusType como SCM:
Get-PhysicalDisk | where BusType -eq "SCM" | select SerialNumber, HealthStatus, OperationalStatus, OperationalDetails
Observação
Para localizar o local físico de um dispositivo de memória persistente especificado em um evento, na guia Detalhes do evento no Visualizador de Eventos, vá para Local de Dados>de Eventos. Observe que o Windows Server 2016 lista o local incorreto de dispositivos de memória persistente, mas isso foi corrigido no Windows Server, versão 1709.
HealthStatus mostra se o disco de memória persistente está íntegro.
O valor UnsafeshutdownCount rastreia o número de desligamentos que podem causar perda de dados nesse disco lógico. É a soma das contagens de desligamento não seguro de todos os dispositivos de memória persistente subjacentes deste disco. Para obter mais informações sobre o status de integridade, use o Get-PmemPhysicalDevice
cmdlet para localizar informações como OperationalStatus.
Get-PmemPhysicalDevice
DeviceId DeviceType HealthStatus OperationalStatus PhysicalLocation FirmwareRevision Persistent memory size Volatile memory size
-------- ---------- ------------ ----------------- ---------------- ---------------- ---------------------- --------------------
1020 Intel INVDIMM device Healthy {Ok} CPU2_DIMM_C1 102005310 126 GB 0 GB
1120 Intel INVDIMM device Healthy {Ok} CPU2_DIMM_F1 102005310 126 GB 0 GB
120 Intel INVDIMM device Healthy {Ok} CPU1_DIMM_F1 102005310 126 GB 0 GB
20 Intel INVDIMM device Unhealthy {HardwareError} CPU1_DIMM_C1 102005310 126 GB 0 GB
Esse cmdlet mostra qual dispositivo de memória persistente não está íntegro. O dispositivo não íntegro (DeviceId 20) corresponde ao caso no exemplo anterior. O PhysicalLocation no BIOS pode ajudar a identificar qual dispositivo de memória persistente está em estado defeituoso.
Para ajudar a entender as várias condições de integridade, confira as seções a seguir.
Aviso de status de saúde
Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê que seu Status de integridade está listado como Aviso, conforme mostrado nesta saída de exemplo:
SerialNumber | HealthStatus | OperationalStatus | OperationalDetails |
---|---|---|---|
802c-01-1602-117cb5fc | Íntegros | OK | |
802c-01-1602-117cb64f | Aviso | Falha preditiva | {Limite excedido, erro de NVDIMM_N} |
A tabela a seguir lista algumas informações sobre essa condição.
Direcionamento | Descrição |
---|---|
Condição provável | Limite de aviso violado |
Causa raiz | Os dispositivos de memória persistente rastreiam vários limites, como temperatura, tempo de vida do NVM e/ou tempo de vida da fonte de energia. Quando um desses limites é excedido, o sistema operacional é notificado. |
Comportamento geral | O dispositivo permanece totalmente operacional. Este é um aviso, não um erro. |
Comportamento dos Espaços de Armazenamento | O dispositivo permanece totalmente operacional. Este é um aviso, não um erro. |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operational |
O que fazer | Dependendo do limite de aviso violado, pode ser prudente substituir o dispositivo de memória persistente. |
Falha nas gravações em um dispositivo de memória persistente
Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê o Status de Integridade listado como Não íntegro e o Status Operacional menciona um erro de E/S, conforme mostrado nesta saída de exemplo:
SerialNumber | HealthStatus | OperationalStatus | OperationalDetails |
---|---|---|---|
802c-01-1602-117cb5fc | Íntegros | OK | |
802c-01-1602-117cb64f | Unhealthy | {Metadados obsoletos, erro de E/S, erro temporário} | {Perda da persistência de dados, perda de dados, NV...} |
A tabela a seguir lista algumas informações sobre essa condição.
Direcionamento | Descrição |
---|---|
Condição provável | Perda de persistência / energia de backup |
Causa raiz | Dispositivos de memória persistente dependem de uma fonte de energia de backup para sua persistência – geralmente uma bateria ou supertampa. Se essa fonte de alimentação de backup não estiver disponível ou o dispositivo não puder executar um backup por algum motivo (erro de controlador/Flash), os dados estarão em risco e o Windows impedirá gravações adicionais nos dispositivos afetados. Ainda é possível realizar leituras para remover dados. |
Comportamento geral | O volume NTFS será desmontado. O campo de status de integridade do PhysicalDisk mostrará "Não íntegro" para todos os dispositivos NVDIMM-N afetados. |
Comportamento dos Espaços de Armazenamento | O espaço de armazenamento permanecerá operacional enquanto apenas um módulo de memória persistente for afetado. Se vários dispositivos forem afetados, haverá falha nas gravações no Espaço de Armazenamento. O campo Status de integridade do disco físico mostrará "Não íntegro" para todos os dispositivos de memória persistente afetados. |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operational |
O que fazer | Recomendamos fazer backup dos dados do PMem afetado. Para obter acesso de leitura, você pode manualmente colocar o disco online (a sua superfície será como um volume NTFS somente leitura). Para limpar totalmente essa condição, a causa raiz deve ser resolvida (ou seja, fornecer manutenção à fonte de alimentação ou substituir o módulo de memória persistente, dependendo do problema) e o volume no módulo deve ser colocado offline e colocado online novamente ou o sistema deve ser reiniciado. Para tornar o módulo de memória persistente utilizável em Espaços de Armazenamento novamente, use o Reset-PhysicalDisk cmdlet, que reintegra o dispositivo e inicia o processo de reparo. |
O dispositivo é mostrado com uma capacidade de '0' bytes ou como um "Disco Físico Genérico"
Essa condição está presente quando um dispositivo de memória persistente é mostrado com uma capacidade de 0 bytes e não pode ser inicializado ou é exposto como um objeto "Disco Físico Genérico" sem número de série que exibe um Status Operacional de Comunicação Perdida, conforme mostrado nesta saída de exemplo:
SerialNumber | HealthStatus | OperationalStatus | OperationalDetails |
---|---|---|---|
802c-01-1602-117cb5fc | Íntegros | OK | |
Aviso | Comunicação perdida |
A tabela a seguir lista algumas informações sobre essa condição.
Direcionamento | Descrição |
---|---|
Condição provável | O BIOS não expôs o módulo de memória persistente ao sistema operacional |
Causa raiz | Os dispositivos de memória persistente são baseados em DRAM. Quando um endereço DRAM corrompido é referenciado, a maioria das CPUs iniciará uma verificação de máquina e reiniciará o servidor. Algumas plataformas de servidor desmapeiam o módulo de memória persistente, impedindo que o sistema operacional o acesse e potencialmente causando outra verificação da máquina. Isso também pode ocorrer se o BIOS detectar que o módulo de memória persistente falhou e precisa ser substituído. |
Comportamento geral | O módulo de memória persistente é mostrado como não inicializado, com capacidade de 0 bytes e não pode ser lido ou gravado. |
Comportamento dos Espaços de Armazenamento | O espaço de armazenamento permanece operacional (desde que apenas um módulo de memória persistente seja afetado). O objeto PMem PhysicalDisk é mostrado com um Status de Integridade de Aviso e como um "Disco Físico Geral" |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operational |
O que fazer | O dispositivo de memória persistente deve ser substituído ou limpo, de modo que a plataforma do servidor o exponha ao sistema operacional host novamente. Recomenda-se a substituição do dispositivo, pois podem ocorrer mais erros incorrigíveis. A adição de um dispositivo de substituição a uma configuração de espaços de armazenamento pode ser obtida com o Add-PhysicalDisk cmdlet. |
O dispositivo é mostrado como um disco RAW ou vazio após uma reinicialização
Essa condição está presente quando você verifica a integridade de um dispositivo de memória persistente e vê um Status de integridade de Não íntegro e Status operacional de Metadados não reconhecidos, conforme mostrado neste exemplo de saída:
SerialNumber | HealthStatus | OperationalStatus | OperationalDetails |
---|---|---|---|
802c-01-1602-117cb5fc | Íntegros | OK | {Desconhecido} |
802c-01-1602-117cb64f | Unhealthy | {Metadados não reconhecidos, metadados obsoletos} | {Desconhecido} |
A tabela a seguir lista algumas informações sobre essa condição.
Direcionamento | Descrição |
---|---|
Condição provável | Falha de backup/restauração |
Causa raiz | Uma falha no procedimento de backup ou restauração provavelmente resultará na perda de todos os dados no módulo de memória persistente. Quando o sistema operacional for carregado, ele aparecerá como um novo dispositivo de memória persistente sem uma partição ou sistema de arquivos e aparecerá como RAW, o que significa que ele não possui um sistema de arquivos. |
Comportamento geral | A memória persistente estará no modo somente leitura. É necessária uma ação explícita do usuário para começar a usá-lo novamente. |
Comportamento dos Espaços de Armazenamento | Os Espaços de Armazenamento permanecerão operacionais se apenas um módulo de memória persistente for afetado). O objeto de disco físico PMem será mostrado com o Status de Integridade "Não Íntegro" e não será usado por Espaços de Armazenamento. |
Mais informações | Campo OperationalStatus do objeto PhysicalDisk. EventLog – Microsoft-Windows-ScmDisk0101/Operational |
O que fazer | Se o usuário não quiser substituir o dispositivo afetado, ele poderá usar o Reset-PhysicalDisk cmdlet para limpar a condição somente leitura no módulo de memória persistente afetado. Em ambientes de Espaços de Armazenamento, isso também tentará reintegrar o módulo de memória persistente em Espaços de Armazenamento e iniciar o processo de reparo. |
Próximas etapas
Para informações relacionadas, confira também: