Compartilhar via


Erros de hardware e fontes de erro

Um erro de hardware é um mau funcionamento de um componente de hardware em um sistema de computador. Os componentes de hardware contêm mecanismos de detecção de erros que podem detectar quando existe uma condição de erro de hardware. Erros de hardware podem ser classificados como erros corrigidosou erros não corrigidos.

  • Um erro corrigido é uma condição de erro de hardware que foi corrigida pelo hardware ou pelo firmware no momento em que o sistema operacional é notificado sobre a presença da condição de erro.

  • Um erro não corrigido é uma condição de erro de hardware que não pode ser corrigida pelo hardware ou pelo firmware. Erros não corrigidos são classificados como fatal ou não fatal.

    • Um erro fatal de hardware é uma condição de erro não corrigida ou não contida que é identificada como irrecuperável pelo hardware. Quando ocorre um erro fatal não corrigido, o sistema operacional gera uma verificação de bug para conter o erro.
    • Um erro de hardware não fatal é uma condição de erro não corrigida da qual o sistema operacional pode tentar a recuperação tentando corrigir o erro. Se o sistema operacional não puder corrigir o erro, ele gerará uma verificação de bug para conter o erro.

A noção de uma fonte de erro hardware é um conceito fundamental da WHEA (Arquitetura de Erro de Hardware do Windows). Uma fonte de erro de hardware é qualquer unidade de hardware que alerta o sistema operacional para a presença de uma condição de erro. Exemplos de fontes de erro de hardware incluem os seguintes cenários:

  • Exceção de verificação de máquina do processador (por exemplo, MC#)

  • Sinais de erro do chipset (por exemplo, SCI, SMI, SERR#, MCERR#)

  • Relato de erros de barramento de E/S (por exemplo, interrupção por erro da porta raiz do PCI Express)

  • Erros de dispositivo de E/S

Uma única fonte de erro de hardware pode lidar com o relatório de erros para mais de um tipo de condição de erro de hardware. Por exemplo, a exceção de verificação de máquina de um processador geralmente relata erros do processador, erros de cache e memória e erros de barramento do sistema.

Nota

A SMI (interrupção de gerenciamento do sistema) é tratada pelo firmware, não pelo sistema operacional.

Uma fonte de erro de hardware normalmente é representada por:

  • Um ou mais registros de status de erro de hardware

  • Um ou mais registros de controle ou configuração de erros relacionados ao hardware

  • Um mecanismo de sinalização para alertar o sistema operacional de que existe uma condição de erro de hardware

Em algumas situações, não há um mecanismo de sinalização explícito e o sistema operacional deve sondar os registros de status de erro para testar uma condição de erro. No entanto, a sondagem só pode ser usada para condições de erro corrigidas porque erros não corrigidos exigem atenção imediata do sistema operacional.

A partir do Windows Vista, o sistema operacional mantém uma lista de todas as fontes de erro de hardware que podem ser descobertas em uma plataforma de hardware específica. O WHEA usa um mecanismo de descoberta quando o sistema operacional começa a determinar quais dessas fontes de erro de hardware existem em um sistema específico. O meio pelo qual essas informações são expostas ao sistema operacional é específico da plataforma. O sistema operacional coleta essas informações de uma combinação de tabelas ACPI, interações de firmware e outros mecanismos específicos da plataforma.

Nota

O Windows Vista não coleta informações de origem de erro de hardware de tabelas ACPI. No entanto, a partir do Windows Server 2008 e do Windows Vista SP1, o sistema operacional usa tabelas ACPI para coletar informações de origem de erro de hardware.