Errori hardware e origini degli errori
Un errore hardware è un malfunzionamento di un componente hardware in un sistema informatico. I componenti hardware contengono meccanismi di rilevamento degli errori che possono rilevare quando esiste una condizione di errore hardware. Gli errori hardware possono essere classificati come errori correttio errori non corretti.
Un errore corretto è una condizione di errore hardware che è stata corretta dall'hardware o dal firmware al momento in cui il sistema operativo riceve una notifica sulla presenza della condizione di errore.
Un errore non corretto è una condizione di errore hardware che non può essere corretta dall'hardware o dal firmware. Gli errori non corretti vengono classificati come fatali o non fatali.
- Un errore hardware irreversibile è una condizione di errore non corretta o non contenuta che è considerata non recuperabile dall'hardware. Quando si verifica un errore irreversibile non corretto, il sistema operativo genera un controllo di bug per contenere l'errore.
- Un errore hardware non irreversibile è una condizione di errore non corretta da cui il sistema operativo può tentare il ripristino provando a correggere l'errore. Se il sistema operativo non riesce a correggere l'errore, genera un controllo di bug per contenere l'errore.
La nozione di origine degli errori hardware è un concetto fondamentale dell'architettura degli errori hardware Windows (WHEA). Un'origine di errore hardware è qualsiasi unità hardware che avvisa il sistema operativo alla presenza di una condizione di errore. Esempi di origini di errore hardware includono gli scenari seguenti:
Eccezione di controllo macchina del processore (ad esempio, MCE)
Segnali di errore del chipset (ad esempio SCI, SMI, SERR#, MCERR#)
Segnalazione errori del bus di I/O (ad esempio, interruzione della porta radice PCI Express)
Errori del dispositivo di I/O
Una singola origine di errore hardware potrebbe gestire la segnalazione degli errori per più tipi di condizione di errore hardware. Ad esempio, l'eccezione di controllo macchina di un processore segnala in genere errori del processore, errori di cache e memoria e errori del bus di sistema.
Nota
L'interrupt di gestione del sistema (SMI) viene gestito dal firmware, non dal sistema operativo.
Un'origine di errore hardware è in genere rappresentata da:
Uno o più registri dello stato degli errori hardware
Una o più configurazioni di errore hardware o registri di controllo
Un meccanismo di segnalazione per avvisare il sistema operativo che esiste una condizione di errore hardware
In alcune situazioni, non esiste un meccanismo di segnalazione esplicito e il sistema operativo deve controllare lo stato dell'errore per verificare se si verifica una condizione di errore. Tuttavia, il polling può essere usato solo per correggere le condizioni di errore perché gli errori non corretti richiedono un'attenzione immediata da parte del sistema operativo.
A partire da Windows Vista, il sistema operativo gestisce un elenco di tutte le origini di errore hardware che possono essere individuate in una determinata piattaforma hardware. WHEA usa un meccanismo di individuazione quando il sistema operativo inizia a determinare quali di queste origini di errore hardware esistono in un particolare sistema. I mezzi con cui queste informazioni vengono esposte al sistema operativo sono specifiche della piattaforma. Il sistema operativo raccoglie queste informazioni da una combinazione di tabelle ACPI, interazioni firmware e altri meccanismi specifici della piattaforma.
Nota
Windows Vista non raccoglie informazioni sull'origine degli errori hardware dalle tabelle ACPI. Tuttavia, a partire da Windows Server 2008 e Windows Vista SP1, il sistema operativo usa le tabelle ACPI per raccogliere informazioni sull'origine degli errori hardware.