Compartir a través de


Errores de hardware y orígenes de errores

Un error de hardware es un mal funcionamiento de un componente de hardware en un sistema informático. Los componentes de hardware contienen mecanismos de detección de errores que pueden detectar cuándo existe una condición de error de hardware. Los errores de hardware se pueden clasificar como errores corregidos o como errores no corregidos.

  • Un error corregido es una condición de error de hardware corregida por el hardware o el firmware en el momento en que se notifica la presencia del sistema operativo sobre la presencia de la condición de error.

  • Un error no corregido es una condición de error de hardware que el hardware o el firmware no pueden corregir. Los errores no corregidos se clasifican como irrecuperables o no graves.

    • Un error irrecuperable de hardware es una condición de error irrecuperable o no detenida que el hardware determina que el hardware no puede recuperar. Cuando se produce un error irrecuperable irrecuperable, el sistema operativo genera una comprobación de errores para contener el error.
    • Un error de hardware nofatal es una condición de error no corregida desde la que el sistema operativo puede intentar la recuperación intentando corregir el error. Si el sistema operativo no puede corregir el error, genera una comprobación de errores para contener el error.

La noción de un origen de error de hardware es un concepto fundamental de la arquitectura de errores de hardware de Windows (WHEA). Un origen de error de hardware es cualquier unidad de hardware que alerte al sistema operativo de la presencia de una condición de error. Entre los ejemplos de orígenes de errores de hardware se incluyen los siguientes:

  • Excepción de comprobación de la máquina del procesador (por ejemplo, MC#)

  • Señales de error del conjunto de chips (por ejemplo, SCI, SMI, SERR#, MCERR#)

  • Informes de errores del bus de E/S (por ejemplo, interrupción del error de puerto raíz pci Express)

  • Errores de dispositivo de E/S

Un único origen de errores de hardware podría controlar los informes de errores de más de un tipo de condición de error de hardware. Por ejemplo, la excepción de comprobación de la máquina de un procesador normalmente notifica errores de procesador, errores de memoria y caché, y errores de bus del sistema.

Nota El firmware controla la interrupción de administración del sistema (SMI), no el sistema operativo.

Normalmente, un origen de error de hardware se representa mediante lo siguiente:

  • Uno o varios registros de estado de error de hardware

  • Uno o varios registros de control o configuración de errores de hardware

  • Un mecanismo de señalización para alertar al sistema operativo de que existe una condición de error de hardware

En algunas situaciones, no hay un mecanismo de señalización explícito y el sistema operativo debe sondear los registros de estado de error para probar una condición de error. Sin embargo, el sondeo solo se puede usar para las condiciones de error corregidas porque los errores no corregidos requieren atención inmediata por parte del sistema operativo.

A partir de Windows Vista, el sistema operativo mantiene una lista de todos los orígenes de errores de hardware que se pueden detectar en una plataforma de hardware determinada. WHEA usa un mecanismo de detección cuando el sistema operativo comienza a determinar cuáles de estos orígenes de errores de hardware existen en un sistema determinado. Los medios por los que esta información se expone al sistema operativo es específica de la plataforma. El sistema operativo recopila esta información de una combinación de tablas ACPI, interacciones de firmware y otros mecanismos específicos de la plataforma.

Nota Windows Vista no recopila información de origen de errores de hardware de las tablas ACPI. Sin embargo, a partir de Windows Server 2008 y Windows Vista SP1, el sistema operativo usa tablas ACPI para recopilar información de origen de errores de hardware.