비난하지 않는 사후 분석
DevOps를 사용하는 조직은 ‘학습’을 위해 실수와 오류를 확인하려고 합니다. 중단 및 사고에 대한 비난하지 않는 사후 분석을 수행하는 것은 목표의 일부입니다.
‘공정한 문화’가 있다는 것은 안전성과 책임의 균형을 맞추기 위해 노력하고 있음을 의미합니다. 이는 오류의 상황 측면과 오류와 관련이 있는 사람의 의사 결정 프로세스에 중점을 두고 조사하면 조직에서 관련자를 징계하는 것보다는 더 안전하게 소통할 수 있음을 의미합니다.
‘비난하지 않는’ 사후 분석은 사고를 유발한 엔지니어가 다음에 대해 자세히 설명할 수 있음을 의미합니다.
- 어떤 작업을 언제 시행했는지에 대한 내용.
- 관찰한 영향.
- 기대했던 내용.
- 가정했던 내용.
- 발생한 이벤트에 대한 이해 및 타임라인.
징계 또는 보복에 대한 두려움 없이 자세한 설명을 제공할 수 있도록 하는 것이 중요합니다.
질책을 받을 것이라고 생각하는 엔지니어는 해당 문제에 대해 현실적이고 정확한 설명을 할 이유가 없습니다. 사고가 일어나는 방식을 완전하게 이해하지 못하면 그 엔지니어든 다른 사람이든 해당 문제를 다시 발생시킬 가능성이 있습니다.
“사람들이 위험한 선택을 하고 실패하므로 사고가 발생하지 않도록 이해하려고 노력해야 합니다. 사고는 해당 사용자가
...수행하려는 작업이 가능하지 않거나 하고 있는 작업과 발생하는 일이 연결되어 있지 않거나 의도한 결과를 얻을 가능성이 그에 따른 위험보다 훨씬 가치가 있다고 믿기 때문에 발생합니다.”
- Erik Hollnagel
엔지니어가 자신의 이야기를 할 수 있도록 하기
엔지니어가 실수를 하고 그 실수에 대한 자세한 설명을 해도 안전하다고 느끼는 경우 흥미로운 일이 일어납니다. 엔지니어가 기꺼이 책임을 지려고 할 뿐만 아니라 회사의 다른 사람들이 앞으로 동일한 오류를 피할 수 있도록 열정적으로 지원합니다. 그들은 결국 해당 오류에 대해 가장 전문성을 지닌 사람들입니다. 수정 작업을 진행하는 데 가장 많이 관여할 수밖에 없습니다.
“공정한 문화”가 가능하게 하려면 어떻게 할까요?
- 중단 및 사고에 대한 비난하지 않는 사후 분석을 통한 학습을 권장합니다.
- 향후에 발생할 사고에 대해 더 잘 대비하기 위해 사고가 ‘어떻게’ 발생했는지 이해하는 것이 목표임을 기억하세요.
- 여러 관점에서 오류에 대한 세부 정보를 수집하고 실수에 대해 사람들을 징계하지 않습니다.
- 엔지니어를 징계하는 대신 실수를 유발한 경위에 대해 자세히 설명하도록 하여 안전성을 개선할 수 있는 필수 권한을 부여합니다.
- 실수한 사람들이 조직의 다른 사람들이 앞으로 해당 실수를 하지 않도록 교육하는 전문가가 될 수 있도록 장려하세요.
- 사람에게는 행동하거나 하지 않을 재량이 있으며 이러한 결정에 대한 평가는 사후에 할 수 있음을 인정하세요.
- 사후 확신 편향은 과거 이벤트에 대한 평가를 흐리게 할 수 있으므로 이를 없애기 위해 노력하세요.
- 기본적 귀인 오류도 피하기 어려움을 인정하고 사고에 대해 조사할 때 사람들이 일하는 환경과 상황에 초점을 맞추세요.
- 조직의 관리직 인원(예: 경영진 또는 선임 책임자)에게 실제로 작업이 수행되는 방법을 이해시키려고 노력합니다. Gantt 차트와 현장직 인원(예: 엔지니어 및 기술직)의 절차를 활용하여 실제 작업이 진행되는 과정과 관리직 인원이 생각하는 과정을 비교합니다.
- 현장직 인원은 조직에 적절한 동작과 그렇지 않은 동작 사이의 경계에 대해 알려야 합니다. 이는 관리직 인원이 자체적으로 생각할 수 있는 것이 아닙니다.
오류는 발생합니다. 오류가 어떻게 발생했는지 이해하려면 먼저 오류에 대한 우리의 반응을 이해해야 합니다.