피해야 할 일반적인 함정

완료됨

인시던트 사후 검토 프로세스를 시작하는 데 도움을 주기 위해 설명한 로드맵은 유용하지만, 이 과정에서 발생할 수 있는 몇 가지 장애물을 파악하는 것도 유용할 수 있습니다.

이 단원에서는 인시던트 사후 검토 프로세스 중에 다른 사용자가 빠졌던 몇 가지 일반적인 함정과 해당 함정을 피할 수 있는 방법을 살펴보겠습니다.

함정 1: “사용자 오류”에 대한 특성

“파일럿 오류”(“사용자 오류” 라고도 함)는 모듈 소개에서 시작한 B-17 사례에서 초기 조사자가 도달한 결론이었습니다. 해당 사례로 돌아가 보겠습니다.

해당 소개에서 도달한 결론이 만족스럽지 않을 수도 있다고 말씀드렸습니다. 미공군으로부터 인시던트에 대한 조사를 의뢰받은 군사 심리학자 Alphonse Chapanis는 분명히 해당 결론이 만족스럽지 않았습니다. 무엇보다 해당 인시던트는 B-17과 소수의 항공기에 국한된 것이었습니다. 서유럽에서는 수천 대의 C-47 수송기를 동시에 사용하고 있지만 C-47에서는 유사한 인시던트가 발생한 적이 없습니다.

그래서 그는 조종사들을 인터뷰했고, 그들로부터 들은 내용을 바탕으로 B-17 조종석을 보았습니다. 기어 스위치와 플랩 스위치라는 두 개의 스위치가 있었습니다. 조종석에서 두 스위치는 약 3인치 떨어져 있었습니다. 작업 모드는 동일했습니다. 두 스위치를 혼동하기 쉬우며 인시던트가 발생한 이유도 거기에 있었습니다. 비행기를 착륙시키면 플랩을 펼치고 주차하기 전에 접을 것입니다. 또한 Chapanis는 조금 다르게 시도해 보았습니다.

기어 스위치에 작은 고무 휠을 부착하고 플랩 스위치에 단단한 각진 “플랩”을 부착했습니다. 그랬더니 아니나 다를까 인시던트 발생이 멈췄습니다.

현재 Chapanis는 인체공학(인간 수행의 설계 연구 요소) 분야의 창립자 중 한 명으로 알려져 있으며, 간단한 관찰을 통해 조종석 설계가 사용자 오류의 가능성에 영향을 줄 수 있다는 것을 확인했습니다. 이러한 방식으로 모든 최신 항공기의 설계를 조사했습니다. 최신 항공기에서는 미연방법에 따라 두 스위치가 잘 구분되게 설계되어 있습니다.

그렇다면 이 사례를 들려드리는 이유는 무엇일까요?

사람은 실수하기 마련입니다. 그러나 인적 오류는 원인이 아닙니다. 증상입니다. 사용자 오류가 고장의 원인인 것처럼 보일 경우 사람들은 인시던트를 더 이상 분석하지 않고 조사를 중단합니다.

시스템 설계, 조직 컨텍스트, 개인 컨텍스트는 모두 사람들이 실수하는 시기, 방법 및 정도에 영향을 줍니다. “사용자 오류”는 시스템에 대해 흥미로운 사항을 파악하려는 순간에 조사를 중단하게 하는 레이블입니다.

조사에서 문제가 “사용자 오류”로 확인될 경우 사용자가 그 당시에 그렇게 한 것이 타당했다는 사실을 잊게 됩니다. 당연히 실수는 고의가 아니므로 사용자가 실수를 의도한 것은 아닙니다.

따라서 “인적 오류”를 보거나 듣게 된다면 더 자세히 살펴보아야 합니다. 배움을 원한다면 사용자 오류를 발견할 때 흔히 하는 것처럼 조사를 멈춰서는 안 됩니다. B-17 사례에서 알 수 있듯이 사용자 오류의 이면에는 시스템에 대해 배울 수 있는 흥미로운 사항이 있습니다.

함정 2: 반사실적 추론

반사실적이란 “사실과 반대”를 의미하고, 반사실적 추론은 발생한 이벤트를 설명하기 위해 발생하지 않은 이벤트에 관해 이야기하는 것을 말합니다. 사람들이 항상 그렇게 하는 경향이 있더라도 이는 이치에 맞지 않습니다.

다음과 같은 주요 어구로 반사실적인 설명을 식별할 수 있습니다.

  • 할 수도 있었다
  • 해야 했다
  • 했을 텐데
  • 하지 못했다
  • 하지 않음
  • 이면 좋을 텐데

다음은 인시던트 사후 검토와 관련된 반사실적 설명의 몇 가지 예입니다.

“모니터링 시스템에서 문제를 감지하지 못했습니다.”

“엔지니어가 시행하기 전에 구성의 유효성을 검사하지 않았습니다.”

“카나리아 환경에서 선택할 수 있었습니다.”

인시던트 사후 검토에서 이러한 유형의 추론 문제는 문제가 어떻게 발생했는지를 파악하는 대신 발생하지 않은 문제에 관해 이야기하는 것입니다. 이런 추측에서는 아무것도 배울 수 없습니다.

함정 3: 표준 언어

표준 언어는 운영자가 취해야 하는 “명백하게 옳은” 조치가 있었다는 것을 암시하고 뒤늦게 알게 된 정보로 운영자의 조치를 판단합니다.

표준 언어는 일반적으로 “부적절하게”, “부주의하게”, “성급하게” 등과 같은 부사로 식별할 수 있습니다.

표준 사고는 결과에 기초하여 결정을 판단하도록 이끕니다. 결과는 결정을 내리고 판단한 사람이 사용할 수 없었던 정보의 일부에 불과하므로 이런 식으로 말하는 것은 논리적이지 않습니다.

표준 언어는 반대 의미로 사용될 수도 있습니다. 예를 들어 사람들이 “적절하게” 조치한 운영자를 칭찬할 수 있습니다. 하지만 해당 사용자가 알지 못했던 정보로 판단하는 경우가 있습니다.

표준 언어의 문제는 반사실적 추론의 문제와 유사합니다. 즉, 인시던트에 관련된 사람이 사용할 수 없었던 정보로 사후에 판단할 경우 운영자의 조치가 당시에 타당했는지를 파악하지 못합니다.

함정 4: 기계론적 추론

‘기계론적 추론’은 수동 작업에서 특정 결과를 유추할 수 있다는 개념을 나타냅니다. "간섭하는 아이들만 아니었다면 우리 시스템은 잘 작동했을 것"이라는 전제하에 간섭하는 아이들 증후군(Jessica DeVita가 만든 용어)이라고도 합니다.

인시던트 사후 검토에서 기계론적 추론을 사용하는 경우 내부에서 함께 작동하는 시스템이 기본적으로 올바르게 작동하고, “참견하는 어린이”만 없었다면 오류가 발생하지 않았을 것이라는 오류에 기반하여 결론을 내립니다.

하지만 이는 시스템이 작동하는 방식이 아닙니다.

이 점을 설명하기 위해 다음 시나리오를 상상해 보세요. 프로덕션 서비스에서 작업합니다. 방금 해당 서비스에 관여하거나 관련 서비스에 대해 아무것도 할 수 없다고 들었습니다. 팀 외부의 모든 상황은 전과 같이 지속됩니다. 즉, 고객은 계속해서 서비스를 사용하고, 외부 종속성은 지속적으로 변경되고, 인터넷은 정상적으로 작동합니다.

하지만 코드 또는 구성을 변경할 수 없습니다. 배포, 컨트롤 플레인 등 아무것도 없습니다.

하루 후에도 서비스가 예상대로 실행될 것으로 생각하세요? 1주일 후에는 어떨까요? 1개월 후에는 어떨까요? 1년 후에는 어떨까요? 현실적으로 서비스가 사용자의 개입 없이 얼마나 오래 실행될 수 있다고 생각하세요? 대부분의 경우 그렇지 않습니다.

관련 사고 연습에서 다음과 같은 중요한 결론을 얻었습니다.

시스템을 안정적으로 실행하려면 사용자의 적응 역량이 필요합니다.

우선 시스템이 안정적으로 실행되는 유일한 이유는 제어 루프에서 사용자의 조치 때문입니다. 시스템이 계속해서 작동하는 변화하는 환경에 대한 사용자의 조치와 적응 능력을 통해서만 가능합니다.

따라서 시스템이 "기본적으로 작동 중"이라고 결론을 내리는 것은 잘못된 일입니다. 만약 그 아이들을 위한 것이 아니었다면." 실제로 서비스의 안정성은 작업하는 사람과 관련이 없습니다. 대신 사람이 매일 수행하는 작업의 직접적인 결과입니다.

기계론적 추론의 문제는 잘못한 사람을 찾는 것이 문제를 찾는 것과 동일하다고 믿는 데 있습니다. 그러나. 동일한 불완전한 사람이 몇 주, 몇 개월 동안 시스템을 안정적으로 실행하기 위해 즉석에서 조치하고 적응해 왔습니다. 이 역할은 인시던트 사후 검토에 반영될 만큼 중요합니다.

이제 인시던트 사후 검토 중에 피해야 할 몇 가지 사항을 알아보았으므로, 다음 단원에서는 몇 가지 유용한 검토 방법을 살펴보겠습니다.

지식 점검

1.

다음 중 일어난 일을 설명하기 위해 일어나지 않은 사건에 대한 이야기를 하는 것을 의미하는 용어는 무엇입니까?

2.

사용자 오류란...