인시던트 사후 검토 프로세스

완료됨

인시던트 사후 검토의 핵심 부분은 인시던트의 비선형적 특성을 반영하는 정확한 공유 정보를 연대순으로 작성하는 것입니다.

비선형적이라는 것은 인시던트가 “발생, 확인, 조치, 완료”의 순서를 따르지 않는다는 것을 의미합니다. 사람들이 오가고, 사람마다 다른 것을 인지하여 시도하고, 일부는 작동하고 일부는 작동하지 않습니다. 그리고 여러 사람이 동시에 일하는 경우 이러한 일도 동시에 발생할 수 있으므로 조금 더 복잡합니다.

이처럼 복잡한 타임라인을 만들려면 항상 중요한 첫 번째 단계가 있습니다. 바로 데이터를 수집하는 것입니다.

데이터 수집

인시던트 사후 검토를 수행하기 전에 먼저 데이터를 수집해야 합니다. 특히, 이벤트에 포함된 모든 중요 데이터를 사용할 수 있도록 이벤트와 관련하여 최대한 많은 대화를 나누고 컨텍스트를 수집해야 합니다(기술 및 비기술 모두). 가동 중단 또는 인시던트 중에 이루어진 팀 멤버 간 대화는 가장 풍부한 정보의 출처 중 하나입니다.

또한 인시던트에 관련된 사람들이 컨텍스트를 얻는 기타 장소와 모니터링 시스템에서 데이터를 수집해야 합니다. 인시던트가 발생했을 때 시스템에서 가져오는 정보는 무엇인가요?

마지막으로, 변경 사항이 인시던트가 발생하는 데 영향을 주는 요소인 경우가 많으므로 가능하면 인시던트 직전과 도중에 변경된 내용을 파악하는 것이 좋습니다.

이 프로세스는 다음과 같은 세 부분으로 살펴볼 수 있습니다.

  • 대화 수집: 이 학습 경로의 다른 모듈에서 사용자가 인시던트 중에 통신할 특정 장소를 파악하는 것이 중요하다고 언급했습니다. 인시던트 중에 성공한 작업과 실패한 작업, 시도하는 것이 망설여지는 작업, 과거에 시도했던 작업 등을 공유하는 것이 좋습니다. 문제를 처리하여 해결하는 과정에서 사용자 간에 나누는 대화는 학습할 수 있는 가장 좋은 출처가 됩니다.
  • 컨텍스트 확인: 인시던트에 관련된 사람들은 다양한 위치에서 신호를 받습니다. 예를 들면 모니터링 시스템이 있습니다. 이 학습 경로의 이전 모듈에서 견고한 모니터링 시스템을 보유하는 것의 중요성에 관해 설명했습니다. 모니터링 시스템을 조사하여 인스턴트 전후 또는 관련 기간에 대한 지정 시간 스냅샷을 작성할 수 있다면 가장 좋습니다.
  • 변경 내용 찾기: 활동 및 감사 로그를 통해 이 작업을 수행할 수 있습니다.

데이터를 수집하는 데 도움이 되는 Azure 도구

Azure는 프로세스에 도움이 되는 다양한 도구를 제공합니다.

인시던트에 대한 메타데이터를 보관하는 Azure DevOps

이 학습 경로의 이전 모듈에서는 초기 대응부터 인시던트에 대한 모든 정보를 수집하기 위한 장소로 Azure DevOps 제품군의 Azure Boards를 사용하여 설명했습니다. 인시던트가 처음 선언된 시간, 통화한 사람, 인시던트에 할당된 사람 등에 대해 질문하는 것이 좋습니다. Azure DevOps Wiki를 중앙 집중화된 방식으로 활용하여 인시던트와 인시던트 중에 나눈 대화에 대한 일부 정보를 수집할 수도 있습니다.

대화 추출을 위한 Microsoft Graph API

Microsoft Graph API를 사용하면 관련 인시던트에 할당된 Teams 채널 내에서 수집된 대화를 프로그래밍 방식으로 찾아서 내보내거나 가져올 수 있습니다. 검색되는 데이터에는 채널에 조인한 사람 및 시간, 대화의 개별 부분에 대한 타임스탬프를 비롯하여 시간순으로 구성할 때 유용한 메타데이터도 포함됩니다.

Microsoft Graph API를 시작하는 쉬운 방법은 Microsoft Graph Explorer를 사용하는 것입니다. Microsoft Graph Explorer는 미리 채워진 옵션을 선택하여 API 호출을 선택할 수 있는 웹 기반 API 브라우저입니다. 다음과 같습니다.

Microsoft Graph Explorer 웹 페이지의 스크린샷.

대화를 검색하기 위한 일련의 “Microsoft Teams” 및 “Microsoft Teams(베타)” API 호출을 단계별로 안내합니다. 각 단계에서 쿼리를 선택하여 실행하고 대응에서 다음 단계에 도움이 되는 정보를 선택합니다. 그런 다음 해당 정보를 사용하여 다음 요청을 생성합니다. 예를 들어 먼저 팀 ID 목록을 쿼리하여 포함된 팀을 확인합니다. 대응에서 필요한 ID를 선택한 후 다음 쿼리 URL에 삽입하여 해당 팀의 채널 목록을 가져옵니다.

단계는 다음과 같습니다.

  1. “내가 조인한 팀” 가져오기(사용하는 팀의 팀 ID 찾기).
  2. “소속된 팀의 채널” 가져오기(해당 인시던트에 사용된 채널의 채널 ID 찾기).
  3. “채널의 메시지” 가져오기(대화 검색).

나중에 각 단계를 수행하는 프로그램을 생성하려는 경우 해당 쿼리에 대한 샘플 코드를 다양한 프로그래밍 언어로 제공하는 코드 조각 옵션이 요청 창에 있습니다.

컨텍스트 표시를 위한 대상 대시보드

Azure의 대시보드를 사용하면 운영 인식에 중요한 Azure Monitor의 정보를 단일 페이지에서 함께 수집할 수 있습니다. 사용자 인터페이스를 사용하여 표시 기간을 선택할 수 있습니다. 따라서 정보가 너무 오래되어 Azure Monitor에 더 이상 보관되지 않는 경우 “시간을 되감아서” 인시던트와 관련된 기간에 대한 대시보드 정보를 표시할 수 있습니다. 재구성된 사용자 인터페이스는 인시던트에 관련된 사람이 인시던트 중에 확인한 내용을 파악하는 데 유용하지만, 인시던트 검토를 수행하는 사람은 해당 기간을 수동으로 검색해야 합니다.

Azure에서 종종 간과되는 대시보드의 기능에는 다운로드(아래쪽 화살표) 단추를 사용하여 JSON 파일에 표시되는 모든 대시보드의 템플릿을 덤프하고 업로드(위쪽 화살표) 단추를 사용하여 다시 로드하는 기능이 있습니다. 즉, 관련 시간을 수동으로 검색하여 해당 상태에서 대시보드를 다운로드하고 다른 사용자와 JSON 파일을 공유하거나 현재 대시보드를 다운로드한 후 JSON을 사양에 맞게 수정할 수 있습니다. 다운로드한 JSON 대시보드 파일에서 “time” 문자열을 검색하면 다음과 같은 섹션이 표시됩니다.

"metadata": {
  "model": {
    "timeRange": {
      "value": {
        "relative": {
          "duration": 24,
          "timeUnit": 1
        }
      },
      "type": "MsPortalFx.Composition.Configuration.ValueTypes.TimeRange"
    },
    "filterLocale": {
      "value": "en-us"
    },
    "filters": {
      "value": {
        "MsPortalFx_TimeRange": {
          "model": {
            "format": "utc",
            "granularity": "auto",
            "relative": "24h"
          },
          "displayCache": {
            "name": "UTC Time",
            "value": "Past 24 hours"
          },

이 섹션을 사양에 맞게 수정하고 다시 업로드합니다. 사용 중인 형식에 익숙하지 않은 경우 대시보드를 수동으로 변경한 후 다운로드하여 필요한 형식을 표시할 수 있습니다.

변경 탐색을 위한 감사 로그 및 Log Analytics

Log Analytics 작업 영역에서는 Azure 활동 로그를 비롯한 다양한 원본에서 데이터를 가져올 수 있습니다. 먼저 새 Log Analytics 작업 영역을 만듭니다. 그런 다음 포털의 활동 로그 기능으로 이동하여 진단 설정을 선택합니다. 그러면 Azure 구독에 대한 활동 로그를 새 작업 영역으로 보낼 수 있는 옵션이 제공됩니다.

단기간 내에 KQL(Kusto 쿼리 언어)의 모든 기능을 사용하여 데이터 원본에 연결한 후 해당 구독에서 수행된 변경 내용에 대한 자세한 정보를 검색할 수 있습니다.

예를 들어 다음 쿼리는 변경되거나 삭제된 리소스에 대한 정보를 보여 줍니다. 원하는 경우 쿼리 탐색기의 쿼리 시간 범위를 인시던트 직전의 짧은 기간에 주의하여 정교하게 설정할 수 있습니다.

AzureActivity
| where CategoryValue == 'Administrative'
| where OperationNameValue endswith "write" or OperationNameValue endswith "delete"
| project TimeGenerated, Level, ResourceGroup, ResourceId, OperationName, OperationNameValue, ActivityStatus, Caller
| order by TimeGenerated nulls first

참고: Azure 활동 로그를 데이터 원본으로 설정하면 정보는 해당 시점부터 로그 분석 작업 영역으로 이동하기 시작합니다. 연결하기 전에 발생한 이벤트에 대한 데이터는 해당 작업 영역에서 소급하여 쿼리할 수 없습니다.

해당 도구는 인시던트 사후 검토에서 연대순으로 사용하는 데 필요한 정보를 수집하는 데 좋은 시작점이 됩니다. 인시던트 사후 검토를 시작하기 전에 몇 가지 일반적인 함정에 대해 알려드리겠습니다. 이는 다음 단원의 주제입니다.

지식 점검

1.

사후 검토 프로세스를 시작하기 위한 첫 번째 단계는 무엇인가요?

2.

인시던트 사후 검토를 위해 Teams 대화를 검색하는 데 도움이 되는 도구는 무엇인가요?