예측 모델 탐색(중급 데이터 마이닝 자습서)

아티클
03/06/2017

이제 예측 마이닝 모델을 빌드했으므로 데이터 마이닝 Designer 마이닝 모델 뷰어 탭을 사용하여 결과를 탐색할 수 있습니다. Microsoft 시계열 뷰어에는 차트 와 모델이라는 두 개의 탭이 있습니다.

또한 모든 모델에 Microsoft 일반 트리 뷰어를 사용할 수 있습니다. 각 뷰에는 시계열 모델의 조금씩 다른 그림 정보가 표시됩니다.

차트 탭
모델 탭
Microsoft 일반 콘텐츠 뷰어

차트 탭

Microsoft 시계열 뷰어의 차트 탭에는 기록 데이터 및 예측을 포함하여 각 계열이 그래픽으로 표시됩니다. 시계열 그래프의 각 선은 제품, 지역 및 예측 가능한 특성의 고유한 조합을 나타냅니다.

뷰어 오른쪽의 범례에는 드롭다운 목록에서 선택한 항목을 기준으로 사용 가능한 시계열이 나열됩니다. 범례에서 확인란을 선택하거나 확인란의 선택을 취소하여 그래프에 표시되는 시계열을 제어할 수 있습니다.

각 시계열에 사용된 색상이나 차트의 지점에 값이 표시되는지 여부와 같은 표시 옵션을 변경할 수 있습니다.

시계열을 선택하려면

마이닝 모델 뷰어 탭의 차트 탭이 표시되지 않으면 클릭합니다.
차트 뷰의 오른쪽에 있는 드롭다운 목록을 클릭한 다음 확인란을 모두 선택합니다. 확인을 클릭합니다.

이제 차트에는 24개의 다른 계열 선이 있어야 합니다.
차트 오른쪽에 있는 확인란에서 확인란의 선택을 취소하여 Amount를 기준으로 한 모든 계열에 대한 선을 임시로 숨깁니다.

이제 R750 및 R250 자전거와 관련된 확인란의 선택을 취소합니다.

이제 차트에 다음 6개 계열 선이 포함되므로 M200 및 T1000 자전거에 대한 추세를 보다 쉽게 비교할 수 있습니다.
- M200 유럽: 수량
- M200 북아메리카: 수량
- M200 Pacific: Quantity
- T1000 유럽: 수량
- T1000 북아메리카: 수량
- T1000 Pacific:Quantity

M200 및 T1000 수량 예측

이 뷰어에 표시되는 차트에는 기록 데이터 및 예측 데이터가 모두 포함됩니다. 예측 데이터는 기록 데이터와 구분하기 위해 음영 처리됩니다. 다른 계열을 쉽게 비교하기 위해 그래프에서 각 선과 관련된 색상을 변경할 수도 있습니다. 자세한 내용은 데이터 마이닝 뷰어에서 사용되는 색 변경을 참조하세요.

추세 선으로부터 모든 지역의 총 판매액이 대개 12개월 간격으로 증가하여 12월에 최고를 기록하는 것을 알 수 있습니다. 또한 차트로부터 T1000 자전거에 대한 데이터가 다른 제품 계열의 데이터보다 훨씬 늦게 시작하는 것을 알 수 있습니다. 이는 제품이 새 제품이기 때문이지만 이 계열은 훨씬 적은 데이터를 기준으로 하고 있으므로 예측이 정확하지 않을 수 있습니다.

기본적으로 각 시계열에 대해 다섯 가지 예측 단계가 점선으로 표시됩니다. 이 값을 변경하여 더 많거나 적은 예측을 표시할 수 있습니다. 오차 막대를 차트에 추가하여 예측에 대한 표준 편차를 그래픽으로 표시할 수도 있습니다.

차트 뷰에서 예측 및 표시 옵션을 변경하려면

예측 단계의 값을 점진적으로 변경하여 5에서 10으로, 다시 6으로 늘려 보세요.

기록 데이터에 큰 변동이 있는 경우 예측 수를 증가시키는 동안 변동은 대개 반복되거나 증폭됩니다. 이때 기록 데이터가 크게 증가한 원인을 알아본 다음 이러한 결과를 허용할지 여부를 결정하거나 원본 데이터의 수정 사항을 찾거나 모델을 다듬기 위해 일부 조사가 필요할 수 있습니다.
편차 표시 검사 상자를 선택합니다.

이 옵션은 각 예측 값에 대한 예측 오류를 표시합니다.
X축 눈금을 확인합니다. 기록 데이터 및 예측 데이터의 변화는 모두 항상 백분율로 표시되지만 실제 값은 그래프 상의 모든 값에 맞춰 자동으로 조정됩니다. 따라서 모델을 비교할 때 시각적인 것에만 의존하지 않도록 주의해야 합니다. 정확한 값 또는 예측의 백분율 증가 및 값을 얻으려면 점선 또는 단선 위로 마우스를 일시 중지하거나 선을 클릭하여 마이닝 범례의 값을 봅니다.

팁: 마이닝 범례 가 표시되지 않으면 모델 보기로 전환하고 노드를 마우스 오른쪽 단추로 클릭하고 범례 표시를 선택합니다.

이러한 추세를 확인한 뒤에 일부 계열의 데이터 부족이 우려되고 모델별 또는 지역별 판매의 평균을 구하여 보다 신뢰할 수 있는 예측 결과를 얻을 수 있는지 궁금해 할 수 있습니다. 이 자습서의 이후 단원에서 이 방법에 대해 알아 봅니다.

맨 위로 이동

모델 탭

데이터 마이닝 Designer Microsoft 시계열 뷰어의 모델 탭을 사용하면 트리 그래프 형태로 예측 모델을 볼 수 있습니다.

우선 데이터는 유럽, 북미 및 태평양(Europe, North America, Pacific)의 세 지역에서 여러 제품 라인(T1000 등)의 판매에 대한 금액과 수량(Amount, Quantity)의 두 가지 측정값을 나타내므로, 구축한 모델에는 실제 24개의 서로 다른 트리가 포함되며 각 트리는 지역, 제품 및 예측 가능한 특성의 서로 다른 조합에 대한 판매 패턴 모델을 나타냅니다.

모델 탭의 트리 드롭다운 목록에서 계열을 선택하여 보려는 제품 라인, 지역 및 판매 메트릭의 조합을 선택할 수 있습니다.

모델을 트리로 표시함으로써 얻을 수 있는 정보를 알아보기 위해 예를 들어 트리에 여러 수준이 있는 모델과 단일 노드가 있는 모델을 비교해 보겠습니다.

트리 그래프에 단일 노드가 포함된 경우 모델에서 확인된 추세가 시간에 따라 거의 같은 유형을 지님을 의미합니다. 모두라는 레이블이 지정된 이 단일 노드를 사용하여 입력 변수와 결과 간의 관계를 설명하는 수식을 볼 수 있습니다.
시계열의 트리 그래프에 여러 분기가 있는 경우 검색된 시계열이 너무 복잡하여 단일 수식으로 나타낼 수 없음을 의미합니다. 대신 트리 그래프에는 여러 분기가 포함될 수 있으며, 각 분기는 트리를 분할한 조건으로 레이블이 지정됩니다. 트리가 분할될 때 각 분기는 서로 다른 시간 세그먼트를 나타내며 내부의 추세는 단일 수식으로 표현될 수 있습니다.

예를 들어 차트 그래프를 보면 9월에 시작하여 연말 연시까지 판매량이 급격하게 증가하여 모델 보기로 전환하여 추세가 변경된 정확한 날짜를 확인할 수 있습니다. "9월 이전" 및 "9월 이후"를 나타내는 트리의 분기에는 분할까지의 판매 추세를 수학적으로 설명하는 수식과 연말 연시까지의 9월 판매 추세를 설명하는 다른 수식이 포함됩니다.

시계열 모델의 의사 결정 트리를 탐색하려면

뷰어의 모델 탭에 있는 트리 목록에서 T1000 Europe: Amount 계열을 선택합니다.

모두라는 레이블이 지정된 노드를 클릭합니다.

모든 노드의 경우 표시되는 도구 설명에는 전체 계열의 사례 수 및 데이터 분석에서 파생된 시계열 수식과 같은 정보가 포함됩니다.
마이닝 범례가 표시되지 않으면 노드를 마우스 오른쪽 단추로 클릭하고 범례 표시를 선택합니다.

마이닝 범례는 도구 설명에 있는 것과 거의 동일한 정보를 제공합니다. 독립 변수 중 불연속인 변수가 있는 경우 노드의 변수 분포를 보여 주는 히스토그램도 표시됩니다.
이제 표시할 다른 시계열을 선택합니다. 뷰어의 모델 탭에서 트리 목록을 사용하여 M200 북아메리카: 크기 계열을 선택합니다.

이제 트리 그래프에는 모두 노드와 두 개의 자식 노드가 포함됩니다. 자식 노드의 레이블을 확인하여 추세 선의 어느 지점이 변경되었는지 알 수 있습니다.

각 자식 노드에 대해 마이닝 범 례의 설명에는 트리의 각 분기에 있는 사례 수도 포함됩니다.

다음 목록에서는 트리 뷰어의 일부 추가 기능을 설명합니다.

배경 컨트롤을 사용하여 차트에 표시되는 변수를 변경할 수 있습니다. 기본적으로 Background 값이 Population으로 설정되기 때문에 더 어두운 노드에는 더 많은 사례가 포함 됩니다. 노드에 있는 사례 수를 확인하려면 노드 위로 마우스를 일시 중지하고 나타나는 도구 설명을 보거나 노드를 클릭하고 노드 범례 창에서 숫자를 확인합니다.
노드의 회귀 수식은 도구 모음에서 확인하거나 노드를 클릭하여 확인할 수도 있습니다. 혼합 모델을 만든 경우 리프 노드의 ARTXP용 수식과 트리 루트 노드의 ARIMA용 수식 두 가지를 확인할 수 있습니다.
작은 다이아몬드 모양은 연속적인 수를 나타내는 노드에 사용됩니다. 특성의 범위는 다이아몬드가 놓인 막대에 표시됩니다. 다이아몬드는 노드의 평균에 있고 다이아몬드 너비는 해당 노드에서 특성의 분산을 나타냅니다.

맨 위로 이동

(선택 사항) 일반 콘텐츠 트리 뷰어

시계열에 대한 사용자 지정 뷰어 외에도 Analysis Services는 모든 데이터 마이닝 모델에서 사용할 수 있는 MicrosoftGeneric 콘텐츠 트리 뷰어를 제공합니다. 이 뷰어는 다음과 같은 이점을 제공합니다.

Microsoft 시계열 뷰어: 이 보기는 두 알고리즘의 결과를 병합합니다. 각 계열을 개별적으로 볼 수는 있지만 각 알고리즘의 결과가 결합된 방법을 확인할 수는 없습니다. 또한 이 뷰에서 도구 설명 및 마이닝 범례에는 가장 중요한 통계만 표시됩니다.
일반 콘텐츠 트리 뷰어: 모델에서 한 번에 사용된 모든 데이터 계열을 찾아보고 볼 수 있으며, 혼합 모델을 만든 경우 ARIMA 및 ARTXP 트리가 모두 동일한 그래프에 표시됩니다.

이 뷰어를 사용하여 두 가지 알고리즘으로부터 값의 분포는 물론 전체 통계를 얻을 수 있습니다.

ARIMA 및 ARTXP 분석에 대해 더 자세히 알고자 하는 데이터 마이닝 전문가에게 권장됩니다.

일반 콘텐츠 뷰어에서 특정 데이터 계열에 대한 세부 사항을 보려면

마이닝 모델 뷰어 탭의 뷰어 드롭다운 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.
노드 캡션 창에서 맨 위(모두) 노드를 클릭합니다.
노드 세부 정보 창에서 ATTRIBUTE_NAME 값을 봅니다.

이 값은 이 노드에 포함된 제품 및 지역의 결합 또는 계열을 알려 줍니다. AdventureWorks 예제에서 최상위 노드는 M200 Europe 계열에 대한 것입니다.
노드 캡션 창에서 자식 노드가 있는 첫 번째 노드를 찾습니다.

계열 노드에 자식이 있는 경우 Microsoft 시계열 뷰어의 모델 탭에 표시되는 트리 뷰에도 분기 구조가 포함됩니다.
노드를 확장하고 자식 노드 중 하나를 클릭합니다.

스키마의 NODE_DESCRIPTION 열에는 트리를 분할한 조건이 포함됩니다.
노드 캡션 창에서 맨 위 ARIMA 노드를 클릭하고 모든 자식 노드가 표시될 때까지 노드를 확장합니다.
노드 세부 정보 창에서 ATTRIBUTE_NAME 값을 봅니다.

이 값은 이 노드에 포함된 시계열을 알려 줍니다. ARIMA 섹션의 최상위 노드는 (All) 섹션의 최상위 노드와 일치해야 합니다. AdventureWorks 예제에서 이 노드에는 M200 Europe 계열에 대한 ARIMA 분석이 포함되어 있습니다.