콜 센터 모델 탐색(중급 데이터 마이닝 자습서)
지금까지 탐구 모델을 작성했으므로 이제 이 모델을 사용하여 Business Intelligence Development Studio에서 제공되는 다음과 같은 도구로 데이터에 대해 보다 자세한 정보를 알 수 있습니다.
Microsoft 신경망 뷰어**:** 이 뷰어는 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에서 사용할 수 있으며 이 뷰어를 통해 데이터 상호 작용을 검사할 수 있습니다.
Microsoft 일반 콘텐츠 트리 뷰어**:** 이 표준 뷰어에서는 모델을 생성할 때 알고리즘을 통해 발견한 패턴 및 통계를 보다 상세히 볼 수 있습니다.
데이터 원본 뷰 디자이너**:** 이 뷰어에서는 테이블, 차트, 피벗 차트 및 피벗 테이블을 제공하므로 사용자가 원본 데이터를 탐색할 수 있습니다. 원본 데이터로 돌아가면 모델에서 강조 표시하는 추세를 이해하는 데 큰 도움이 될 수 있습니다.
Microsoft 신경망 뷰어
뷰어에는 세 가지 창인 입력, 출력 및 변수가 있습니다.
출력 창을 사용하면 예측 가능한 특성 또는 종속 변수에 대해 서로 다른 값을 선택할 수 있습니다. 모델에 예측 가능한 특성이 여러 개 있는 경우 출력 특성 목록에서 특성을 선택할 수 있습니다.
변수 창에서는 영향을 주는 특성 또는 변수 측면에서 선택한 두 결과를 비교합니다. 색이 지정된 막대는 변수가 대상 결과에 얼마나 많은 영향을 주는지를 시각적으로 나타냅니다. 변수에 대한 리프트 점수를 볼 수도 있습니다. 리프트 점수는 사용하고 있는 마이닝 모델 유형에 따라 다르게 계산되지만 일반적으로 예측을 위해 이 특성을 사용할 때 모델의 향상률을 보여 줍니다.
입력 창을 사용하면 모델에 영향 요인을 추가하여 여러 가상 시나리오를 시도할 수 있습니다.
출력 창 사용
이 초기 모델에서는 얼마나 다양한 요인이 서비스 등급에 영향을 주는지 살펴보려고 합니다. 이를 위해서는 출력 특성 목록에서 Service Grade를 선택한 다음 값 1 및 값 2에 대한 드롭다운 목록에서 범위를 선택하여 서로 다른 서비스 수준을 비교할 수 있습니다.
가장 낮은 서비스 등급과 가장 높은 서비스 등급을 비교하려면
값 1에 가장 낮은 값의 범위를 선택합니다. 예를 들어 0-0-0.7 범위는 가장 낮은 중단율을 나타내므로 결국 가장 높은 서비스 수준을 보여 줍니다.
[!참고]
이 범위의 정확한 값은 모델 구성 방법에 따라 매우 다를 수 있습니다.
값 2에 가장 높은 값의 범위를 선택합니다. 예를 들어 >=0.12 범위는 가장 높은 중단율을 나타내므로 결국 가장 낮은 서비스 수준을 보여 줍니다.
변수 창의 내용은 결과 값에 영향을 주는 특성을 비교하도록 업데이트됩니다. 따라서 왼쪽 열에서는 가장 높은 서비스 등급과 연결된 특성을 보여 주고 오른쪽 열에서는 가장 낮은 서비스 등급과 연결된 특성을 보여 줍니다.
변수 창 사용
출력 창을 사용하여 비교할 결과를 구성한 후에는 변수 목록을 사용하여 각 변수가 결과에 어떤 식으로 영향을 주는지 살펴 볼 수 있습니다. 이 모델에서 가장 높은 서비스 등급과 가장 낮은 서비스 등급을 차별화하는 상위 세 가지 요인은 Average Time Per Issue, Orders 및 Day Of Week입니다.변수 창에서는 영향을 주는 각 변수의 중요도에 대한 자세한 통계도 제공합니다.
특성에 대한 확률 및 리프트 점수를 보고 복사하려면
변수 창의 첫 번째 행에 있는 색이 지정된 막대 위에 마우스를 놓습니다.
색이 지정된 이 막대는 Average Time Per Issue가 서비스 등급에 얼마나 많은 영향을 주는지를 보여 줍니다. 도구 설명은 변수와 대상 결과의 각 조합에 대한 총 점수, 확률 및 리프트 점수를 보여 줍니다.
변수 창에서 색이 지정된 막대를 마우스 오른쪽 단추로 클릭하고 복사를 선택합니다.
Excel 워크시트에서 셀을 마우스 오른쪽 단추로 클릭하고 붙여넣기를 선택합니다.
보고서가 HTML 테이블로 붙여 넣어지고 각 막대에 대한 점수만 표시합니다.
다른 Excel 워크시트에서 셀을 마우스 오른쪽 단추로 클릭하고 선택하여 붙여넣기를 선택합니다.
보고서가 텍스트 형식으로 붙여 넣어지고 다음 섹션에서 설명하는 관련 통계를 포함합니다.
입력 창 사용
요일, 교대조 또는 주문 수와 같은 특정 요인이 주는 영향을 살펴보려고 합니다. 입력 창을 사용하여 특정 변수를 선택할 수 있으며 변수 창은 지정된 변수에 따라 이전에 선택한 두 그룹을 비교하도록 자동으로 업데이트됩니다. 이 정보를 사용하면 대상 결과에 영향을 주는 요인을 조사할 수 있습니다. 예를 들어 모델을 처음 검토했을 때 월요일과 화요일에는 서비스 수준이 높고 목요일에는 서비스 수준이 저하되는 경향을 보였으므로 여기에 영향을 주는 요인을 검토하려고 합니다.
입력 특성을 변경하여 서비스 등급에 대한 효과를 검토하려면
입력 창에서 특성으로 Day Of Week를 선택합니다.
값으로 Thursday를 선택합니다.
변수 창은 요일이 Thursday일 경우 다른 모든 변수가 주는 영향을 표시하도록 업데이트됩니다. 다른 모든 선택은 동일하게 남아 있습니다. 계속 가장 낮은 서비스 등급과 가장 높은 서비스 등급을 비교합니다.
값에서 요일을 Saturday로 변경합니다.
변수 창은 토요일에 서비스 등급에 가장 많은 영향을 주는 변수를 표시하도록 업데이트됩니다.
입력 창의 특성 아래에 있는 다음 빈 행을 클릭하고 Shift를 선택합니다. 값으로 AM을 선택합니다.
새 입력 조건이 목록에 추가됩니다. 변수 창은 특정 교대조가 이미 선택된 요일의 모델에 주는 영향을 표시하도록 업데이트됩니다.
계속 Shift 및 Day Of Week에 대한 값을 변경하여 서비스 등급과 이러한 변수 간의 흥미로운 상관 관계를 발견합니다.
[!참고]
다른 특성을 사용할 수 있도록 입력 창의 내용을 지우려면 뷰어 내용 새로 고침을 클릭합니다.
뷰어에서 제공하는 통계 해석
오래 걸리는 대기 시간은 높은 중단율을 예측하는 강력한 요인으로, 낮은 서비스 등급을 의미합니다. 확실하게 이러한 결론을 내릴 수 있지만 마이닝 모델에서는 이러한 추세를 해석하는 데 유용한 몇 가지 추가 통계 데이터를 제공합니다.
점수: 결과를 판별하기 위한 이 변수의 전체 중요도를 나타내는 값입니다. 점수가 높을수록 변수가 결과에 끼치는 영향도 큽니다.
값 1의 확률: 이 결과에 대한 이 값의 확률을 나타내는 백분율입니다.
값 2의 확률: 이 결과에 대한 이 값의 확률을 나타내는 백분율입니다.
값 1에 대한 리프트 및 값 2에 대한 리프트: 값 1 및 값 2 결과를 예측하기 위해 이 특정 변수를 사용할 경우의 영향을 나타내는 점수입니다. 점수가 높을수록 변수가 결과를 보다 잘 예측할 수 있습니다.
이러한 정보를 어떻게 해석하시겠습니까? 예를 들어 가장 높은 서비스 등급과 가장 낮은 서비스 등급을 비교하려고 하며 Average Time Per Issue가 서비스 등급에 주는 영향을 검토한다고 가정해 보십시오. 모델에는 Average Time Per Issue에 대한 값 범위가 나열되고, 값 1의 확률은 60.6%이며 값 2의 확률은 8.30%라는 통계가 제공됩니다. 즉, Average Time Per Issue 범위는 44-70분이며 사례의 60.6%는 가장 높은 서비스 등급(값 1)의 교대조에 해당되고 사례의 8.30%는 가장 낮은 서비스 등급(값 2)의 교대조에 해당됩니다.
이 정보를 사용하여 몇 가지 결론을 내릴 수 있습니다. 보다 짧은 호출 응답 시간(44-70 범위)이 보다 높은 서비스 등급(0.00-0.07 범위)에 더 많은 영향을 끼칩니다. 점수(92.35)는 이 변수가 매우 중요함을 나타냅니다.
그러나 보다 미묘하고 해석하기 어려운 영향을 주는 다른 요인도 있습니다. 예를 들어 교대조가 서비스에 영향을 주는 것 같지만 요일에 따라서도 서비스 등급이 달라집니다. 또한 리프트 점수 및 상대 확률은 교대조가 중요한 요인이 아님을 나타냅니다.
신경망 모델의 값은 표준 분석으로는 발견하기 어려운 매우 미묘한 관계를 보여 줍니다. 따라서 당면한 비즈니스 문제를 올바로 이해한 상태에서 시간을 들여 모델을 검토하고 관계를 해석해야 합니다.
맨 위로 이동
Microsoft 일반 콘텐츠 트리 뷰어
이 뷰어를 사용하면 모델을 처리할 때 알고리즘에서 만든 보다 자세한 정보를 볼 수 있습니다. Microsoft일반 콘텐츠 트리 뷰어는 마이닝 모델을 일련의 노드로 나타냅니다. 여기서 각 노드는 학습 데이터에 대해 얻은 지식을 나타냅니다. 이 뷰어는 모든 모델에서 사용할 수 있지만 노드 내용은 모델 유형에 따라 다릅니다.
신경망 모델 또는 로지스틱 회귀 모델의 경우 특히 marginal statistics node가 유용합니다. 이 노드에는 데이터의 값 분포에 대한 파생 통계가 들어 있습니다. 많은 T-SQL 쿼리를 작성하지 않고 데이터 요약을 얻으려는 경우 이 정보가 유용할 수 있습니다. 이전 항목의 값 범주화에 대한 차트가 marginal statistics node에서 파생되었습니다.
마이닝 모델에서 데이터 값 요약을 얻으려면
데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에서 <마이닝 모델 이름>을 선택합니다.
뷰어 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.
마이닝 모델 뷰가 새로 고쳐져 왼쪽 창에 노드 계층이 표시되고 오른쪽 창에 HTML 테이블이 표시됩니다.
노드 캡션 창에서 이름이 10000000000000000인 노드를 클릭합니다.
모델의 최상위 노드는 항상 모델 루트 노드입니다. 신경망 또는 로지스틱 회귀 모델에서 이 노드 바로 아래에 있는 노드가 marginal statistics node입니다.
노드 정보 창에서 아래로 스크롤하여 NODE_DISTRIBUTION 행을 찾습니다.
NODE_DISTRIBUTION 테이블을 스크롤하여 신경망 알고리즘에서 계산한 값 분포를 봅니다.
보고서에 이 값을 사용하려면 특정 행에 대한 정보를 선택한 다음 복사하거나 다음 DMX(Data Mining Extensions) 쿼리를 사용하여 노드의 전체 내용을 추출합니다.
SELECT * FROM [Call Center Binned NN].CONTENT WHERE NODE_NAME = '10000000000000000'
또한 NODE_DISTRIBUTION 테이블의 노드 계층 및 정보를 사용하여 신경망의 개별 경로를 이동하고 숨겨진 계층의 통계를 볼 수 있습니다. 자세한 내용은 신경망 모델 쿼리(Analysis Services - 데이터 마이닝)를 참조하십시오.
맨 위로 이동
데이터 원본 뷰 디자이너
마이닝 구조 또는 큐브를 작성할 때 이 뷰어를 사용하지만 이 뷰어는 원본 데이터를 보다 잘 이해하는 데 유용한 여러 도구도 제공합니다. 예를 들어 모델에서 완전히 이해하지 않은 추세를 발견한 경우 기본 데이터의 개별 행을 보거나 상관 관계 이해에 도움이 되는 요약 또는 차트를 만들 수 있습니다.
이 섹션에서는 데이터를 Excel에 복사하거나 데이터 원본에 대해 여러 T-SQL 쿼리를 실행할 필요 없이 데이터 원본 뷰 디자이너를 사용하여 모델이 나타낸 추세를 탐색하는 방법에 대한 하나의 예를 제공합니다.
이 시나리오에서는 모델에서 발견한 응답 시간과 서비스 등급 간의 상관 관계를 그래프로 보여 주는 일부 차트를 만듭니다.
마이닝 모델의 추세를 나타내는 피벗 차트를 만들려면
솔루션 탐색기의 데이터 원본 뷰에서 Call Center.dsv를 두 번 클릭합니다.
Call Center.dsv 탭에서 FactCallCenter 테이블을 마우스 오른쪽 단추로 클릭하고 데이터 탐색을 선택합니다.
FactCallCenter 테이블 탐색이라는 새 탭이 열립니다. 이 탭에는 테이블, 피벗 테이블, 차트 및 피벗 차트와 같이 서로 다른 탭에 4개의 섹션이 있습니다.
피벗 차트 탭을 클릭합니다.
차트 필드 목록에서 AverageTimePerIssue를 선택하여 차트 영역의 범주 필드를 여기로 끌어옵니다라는 상자로 끌어옵니다.
원본 데이터는 플랫 테이블에서 가져온 것이므로 차트 필드 목록 계층에 계층 수준 및 필드 수준 모두의 동일한 정보가 들어 있습니다. 그러나 큐브 또는 차원을 사용하는 경우 계층에 여러 멤버가 있을 수 있습니다. 예를 들어 날짜 계층에는 분기, 월 또는 주와 같은 필드가 포함될 수 있습니다. 전체 계층 또는 계층의 단일 멤버를 차트로 끌어올 수 있습니다.
차트 필드 목록에서 ServiceGrade를 찾아 차트 영역의 가운데로 끌어옵니다.
차트가 업데이트되어 차트 맨 위에 Sum of ServiceGrade라는 상자가 추가됩니다.
도구 모음에서 시그마 아이콘을 클릭하고 평균을 선택합니다.
제목이 Average of ServiceGrade로 업데이트됩니다.
차트 필드 목록에서 Shift를 선택하여 차트 영역의 필터 필드를 여기로 끌어옵니다라는 상자로 끌어옵니다. 차트 필드 목록에서 WageType을 Shift 옆으로 끌어옵니다.
이제 교대조별로 필터링하여 교대조에 따라 추세가 다른지 또는 요일이 휴일인지, 아니면 영업일인지를 확인할 수 있습니다.
차트의 맨 아래에 있는 AverageTimePerIssue를 선택하여 차트 필드 목록으로 다시 끌어옵니다.
차트 필드 목록에서 AverageTimePerLevelTwoOperators를 선택하여 차트 영역의 범주 필드를 여기로 끌어옵니다라는 상자로 끌어옵니다.
차트가 업데이트되어 전화 교환원 수 증가와 평균 서비스 등급 간의 상관 관계를 보여 줍니다. 여기에는 선형 관계가 없습니다. 새 필드를 차트로 끌어오거나 차트 종류를 변경하여 계속 경험할 수 있습니다.
그러나 이러한 차트에는 한 번에 적은 수의 특성만 표시하는 반면 신경망 알고리즘에서는 여러 입력 간에 많은 복잡한 상호 작용을 분석합니다. 또한 신경망 모델은 너무 미묘하여 차트에 표현하기 어려운 많은 상관 관계를 발견합니다.
신경망 모델의 종속성 네트워크 다이어그램을 내보내려는 경우 Visio용 데이터 마이닝 템플릿을 사용할 수도 있습니다. Visio 2007에 대한 이 무료 추가 기능에서는 프레젠테이션 또는 보고서에 사용할 수 있는 데이터 마이닝 모델에 대해 정교하고 사용자 지정 가능한 다이어그램을 제공합니다. 자세한 내용은 Office 2007용 데이터 마이닝 추가 기능(Data Mining Add-ins for Office 2007)을 참조하십시오.
맨 위로 이동
참고 항목
태스크
참조
개념
변경 내역
업데이트된 내용 |
---|
업데이트된 시나리오와 일치하도록 예측 및 DDL 문에서 마이닝 모델 이름을 수정했습니다. |
요일을 포함하도록 모델을 업데이트하고 이전 모델과 관련된 통계 테이블을 삭제했습니다. 요일이 주는 영향에 대해 설명했습니다. |