Udostępnij za pośrednictwem


Błędy sprzętowe i źródła błędów

Błąd sprzętu jest awarią składnika sprzętowego w systemie komputerowym. Składniki sprzętowe zawierają mechanizmy wykrywania błędów, które mogą wykrywać, kiedy istnieje warunek błędu sprzętowego. Błędy sprzętowe można sklasyfikować jako błędy skorygowanelub niekorygowane błędy.

  • Poprawiony błąd sprzętowy to stan błędu, który został naprawiony przez sprzęt lub oprogramowanie układowe, zanim system operacyjny zostanie powiadomiony o obecności tego stanu błędu.

  • Niekorektowany błąd to warunek błędu sprzętowego, którego nie można poprawić przez sprzęt lub oprogramowanie układowe. Błędy nierozpoznane są klasyfikowane jako krytyczne lub niekrytyczne .

    • Krytyczny błąd sprzętu to niepoprawiony lub niezawarty stan błędu, który jest uznawany za nieodwracalny przez sprzęt. W przypadku wystąpienia krytycznego błędu niekorygowanego, system operacyjny generuje sprawdzanie błędów, aby opanować błąd.
    • Niekrytyczny błąd sprzętu jest niekorygowanym stanem błędu, z którego system operacyjny może próbować się odzyskać, starając się naprawić błąd. Jeśli system operacyjny nie może poprawić błędu, generuje kontrolkę błędu, aby opanować błąd.

Pojęcie źródła błędu sprzętowego jest podstawową koncepcją architektury błędów sprzętowych systemu Windows (WHEA). Źródłem błędu sprzętowego jest dowolna jednostka sprzętowa, która powiadamia system operacyjny o obecności warunku błędu. Przykłady źródeł błędów sprzętowych obejmują następujące scenariusze:

  • Błąd sprawdzania maszyny procesora (np. MC#)

  • Sygnały błędów mikroukładu (na przykład SCI, SMI, SERR#, MCERR#)

  • Raportowanie błędów magistrali we/wy (na przykład przerwanie błędu portu głównego PCI Express)

  • Błędy urządzeń we/wy

Pojedyncze źródło błędów sprzętowych może obsługiwać raportowanie błędów dla więcej niż jednego typu warunku błędu sprzętowego. Na przykład wyjątek sprawdzania maszyny procesora zwykle zgłasza błędy procesora, błędy pamięci podręcznej i pamięci oraz błędy magistrali systemu.

Notatka

Przerwanie zarządzania systemem (SMI) jest obsługiwane przez oprogramowanie układowe, a nie przez system operacyjny.

Źródło błędu sprzętowego jest zwykle reprezentowane przez:

  • Co najmniej jeden rejestr stanu błędu sprzętu

  • Co najmniej jedna konfiguracja błędu sprzętowego lub rejestry kontroli

  • Mechanizm sygnalizowania systemu operacyjnego o wystąpieniu błędu sprzętowego

W niektórych sytuacjach nie ma jawnego mechanizmu sygnalizacyjnego, a system operacyjny musi sondować rejestry stanu błędów, aby przetestować warunek błędu. Jednak sondowanie może być używane tylko w przypadku poprawionych warunków błędu, ponieważ błędy niepoprawione wymagają natychmiastowej uwagi ze strony systemu operacyjnego.

Począwszy od systemu Windows Vista, system operacyjny utrzymuje listę wszystkich źródeł błędów sprzętu, które można odnaleźć na określonej platformie sprzętowej. WHEA używa mechanizmu odnajdywania, gdy system operacyjny zaczyna określać, które z tych źródeł błędów sprzętowych istnieją w określonym systemie. Środki, za pomocą których te informacje są udostępniane systemowi operacyjnemu, są specyficzne dla platformy. System operacyjny zbiera te informacje z kombinacji tabel ACPI, interakcji oprogramowania układowego i innych mechanizmów specyficznych dla platformy.

Notatka

System Windows Vista nie zbiera informacji o źródle błędu sprzętowego z tabel ACPI. Jednak począwszy od systemów Windows Server 2008 i Windows Vista z dodatkiem SP1 system operacyjny używa tabel ACPI do zbierania informacji o źródle błędów sprzętu.