인시던트로부터 배워야 하는 이유

완료됨

인시던트가 발생할 경우 처음부터 “만세! 배울 기회다!”라고 반응하지는 않을 것입니다. 당연히 가장 먼저 무엇이 잘못되었는지 파악하고 최대한 빨리 문제를 해결하여 고객과 최종 사용자에게 미치는 영향을 줄이려고 할 것입니다. 이 과정은 이 학습 경로의 다른 모듈에서 설명한 인시던트 대응 프로세스입니다.

하지만 인시던트가 해결된 후에는 후속 작업을 수행하고 경험을 활용하는 것이 중요합니다. 우리가 사건에서 배울 시간이 없다면, 그것은 단지 시간, 돈, 평판 등의 손실로 남아 있습니다. 그러나 해당 인시던트가 정보의 원본이 될 수 있는 경우(다른 원본이 할 수 없는 방식) 실제로 이 인시던트로부터 몇 가지 이점을 얻을 수 있습니다.

인시던트 사후 검토는 인시던트 대응 수명 주기의 분석 단계에 포함됩니다. 모든 인시던트 사후 검토가 다 같지는 않습니다. 프로세스에 접근하는 방식과 초점이 되는 문제의 측면이 다양하며, 잘못된 방식으로 질문을 구성할 경우 검토의 가치가 훼손될 수 있습니다.

이 단원에서는 이유뿐만 아니라 인시던트에서 가장 잘 배울 수 있는 방법에 대해서도 생각하기 시작합니다. 이후 단원에서 "방법"을 확장합니다.

복잡한 시스템 오류

시스템에서 오류가 발생했기 때문이 아니라 시스템은 오류가 발생하기 마련이므로 오류로부터 “배우는 방법을 배워야” 합니다.

현대 세계, 특히 클라우드 환경에서 작업하는 대부분의 시스템은 복잡합니다. 개별적으로 작동하는 부품도 많지만 많은 부품이 상호 연결되어 함께 작동하고 관련 부품이 상호 작용하여 전체 시스템이 동작합니다.

‘안정성’은 학습 경로의 전반에 흐르는 맥락이지만 복잡한 시스템은 절대 100% 안정적이지 않습니다. 복잡한 시스템은 흥미롭고 직관적이지 않은 방식으로 작동합니다. 그것들은 많은 부분으로 구성되며, 종종 시스템의 동작은 부분 자체뿐만 아니라 해당 부분 간의 상호 작용에서 비롯됩니다.

이 항목에 대한 자세한 내용은 Richard I. Cook 박사의 How Complex Systems Fail(복잡한 시스템에서 오류가 발생하는 이유) 을 참조하세요. Richard 박사는 복잡한 시스템의 안전, 특히 의료 시스템의 환자 안전을 위해 수십 년간 노력해온 마취과 의사 겸 연구원입니다. 이 문서에서 박사는 의료, 소프트웨어 작업 등 모든 분야의 복잡한 시스템에 공통적인 사항을 설명합니다.

특히, 몇 가지 주요 사항은 인시던트 분석 및 인시던트 사후 검토 프로세스와 관련이 있습니다.

  • 복잡한 시스템은 다양한 오류를 내포할 수 있습니다. 작동하는 시스템은 다양한 결함이 있기 마련입니다. 변화하는 기술, 운영 조직, 오류를 근절하기 위한 노력 등으로 인해 발생하는 오류는 지속적으로 변경됩니다. 시스템은 결코 완벽하게 작동하지 않습니다.
  • 복잡한 시스템은 저하된 모드에서 실행됩니다. 복잡한 시스템은 항상 “손상된” 상태로 실행됩니다. 복잡한 시스템은 많은 중복을 포함하고 있고, 많은 결함에도 불구하고 작동 상태를 유지할 수 있기 때문에 손상된 상태로 “작동”하게 됩니다. 구성 요소가 지속적으로 고장이 나고 교체되면서 시스템이 동적으로 작동합니다.
  • 재해는 항상 어디서나 발생할 수 있습니다. 시스템의 복잡성은 주요 시스템 오류가 장기적으로 발생하고 피할 수 없다는 것을 의미합니다. 복잡한 시스템은 재앙적 오류가 언제든 발생할 가능성이 있습니다. 이러한 잠재성은 시스템의 본질적인 특성이므로 제거할 수 없습니다.

방지 및 대응

시스템 및 서비스에 대해 원하는 수준의 안정성을 실현하기 위한 노력으로 Microsoft는 인시던트를 방지하기 위해 최선을 다합니다. 하지만 앞에서 설명한 대로 시스템의 복잡성으로 인해 인시던트를 항상 방지할 수 있는 것은 아닙니다.

따라서 오류에 양면적으로 접근해야 합니다. 즉, 방지를 위해 노력하면서 방지가 불가능할 경우 신속하고 효과적으로 대응할 준비를 해야 합니다.

방지와 대응은 서로 연결되어 있습니다. 조직에서 대부분의 작업을 정교하게 자동화한 경우 이러한 상황을 경험했을 수 있습니다. 대부분은 올바르게 작동하지만 오류가 발생할 경우 큰 문제를 일으킬 수 있으며 운영자가 무엇이 잘못되었는지 파악하기 어렵습니다.

작업하는 시스템을 구성하는 것은 기술만이 아닙니다. 실제로 시스템“에서” 시스템을 “사용하여” 작업하는 것이 아니라 시스템 에서 작업하는 것입니다. 여러분은 시스템의 일부입니다. 복잡한 시스템에는 기술적 구성 요소(하드웨어, 소프트웨어)와 인적 구성 요소(사용자와 사용자의 개성, 교육, 지식)가 모두 포함됩니다. Microsoft 시스템은 사람을 포함하는 시스템이며, 문제가 발생했을 때 사람이 대응하는 방법이 우선적으로 문제를 예방하는 것만큼 중요합니다.

언어

언어는 중요합니다. 이 모듈에서는 우리가 사용하는 용어와 의도적으로 사용하지 않는 용어를 자세히 살펴보겠습니다.

사용하는 단어에 따라 인시던트에 대해 생각하는 방법과 배우는 내용 및 범위가 크게 달라질 수 있습니다. 이는 항공, 의료, 수색 구조, 소방 등과 같은 안전이 중요한 산업에 대한 연구에서 내려진 결과입니다.

이 연구 분야를 총칭하여 복원 엔지니어링(RE)이라고 합니다.

기술 분야에서 복원 엔지니어링에 대해 자세히 알아볼 수 있습니다. 이 모듈의 후반부에서는 사람들이 실패로부터 배우려고 할 때 빠지는 가장 일반적인 함정 4가지를 포함하여 RE 문헌에서 배운 몇 가지 유용한 내용을 공유할 것입니다. 그러나 먼저 몇 가지 용어를 정의해야 합니다.

지식 점검

1.

복잡한 시스템에 대한 다음 설명 중 올바르지 않은 것은 무엇인가요?

2.

복잡한 시스템에서 사람의 역할은 무엇인가요?