대체 데이터를 사용한 시계열 예측(중급 데이터 마이닝 자습서)

아티클
05/07/2013

이 태스크에서는 전 세계 판매 데이터를 기준으로 새 모델을 작성합니다. 그런 다음 개별 지역 중 한 곳에 전 세계 판매 모델을 적용하는 예측 쿼리를 만듭니다.

일반 모델 작성

원래 마이닝 모델의 결과 분석에서는 특정 지역 간 및 제품 라인 간에 큰 차이를 보였음을 기억하십시오. 예를 들어 북미 지역에서는 M200 모델의 판매량이 높았던 반면 T1000 모델의 판매량은 그다지 높지 않았습니다. 그러나 일부 계열에는 그리 많지 않은 데이터가 포함되어 있었고 데이터마다 다른 시간에 시작되었다는 점 때문에 분석이 복잡해집니다. 일부 데이터는 누락되기도 했습니다.

M200 및 T1000 수량을 예측하는 계열

데이터 품질 문제 중 일부를 해결하기 위해, 전 세계의 판매 데이터를 병합하고 일반적인 해당 판매 추세 집합을 사용하여 모든 지역에서의 향후 판매를 예측하는 데 적용할 수 있는 모델을 작성합니다.

예측을 만들 때는 전 세계 판매 데이터에 대한 학습을 통해 생성된 패턴을 사용하지만 기록 데이터 요소는 각 개별 지역의 판매 데이터로 바꿉니다. 이 방법을 통해 추세의 셰이프는 보존되나 예측 값은 각 지역 및 모델에 대한 판매 기록 수치에 정렬됩니다.

시계열 모델에 교차 예측 수행

다른 계열의 추세를 예측하기 위해 계열 하나의 데이터를 사용하는 프로세스를 교차 예측이라고 합니다. 교차 예측은 다양한 시나리오에서 사용할 수 있습니다. 예를 들어, TV 판매가 전반적인 경제 활동의 좋은 지표가 된다고 판단하여 TV 판매에 대해 학습된 모델을 일반 경제 데이터에 적용할 수 있습니다.

SQL Server 데이터 마이닝에서 함수 PredictTimeSeries(DMX)에 대한 인수 내의 매개 변수 REPLACE_MODEL_CASES를 사용하여 교차 예측을 수행합니다.

다음 태스크에서는 REPLACE_MODEL_CASES를 사용하는 방법을 배워 봅니다. 병합된 전 세계 판매 데이터를 사용하여 모델을 작성한 다음 일반 모델을 대체 데이터에 매핑하는 예측 쿼리를 만듭니다.

사용자가 현재 데이터 마이닝 모델을 작성하는 방법에 익숙하다고 가정하고 모델 작성 지침을 간소화했습니다.

집계 데이터를 사용하여 마이닝 구조 및 마이닝 모델을 작성하려면

솔루션 탐색기에서 마이닝 구조를 마우스 오른쪽 단추로 클릭한 다음 새 마이닝 구조를 선택하여 데이터 마이닝 마법사를 시작합니다.
데이터 마이닝 마법사에서 다음을 선택합니다.
- 알고리즘: Microsoft 시계열
- 이 고급 단원에서 이전에 작성했던 데이터 원본을 모델의 원본으로 사용합니다. 고급 시계열 예측(중급 데이터 마이닝 자습서)을 참조하십시오.
  
  데이터 원본 뷰: AllRegions
- 계열 키 및 시간 키에 대해 다음 열을 선택합니다.
  
  Key time: ReportingDate
  
  Key: Region
- Input 및 Predict에 대해 다음 열을 선택합니다.
  
  SumQty
  
  SumAmt
  
  AvgAmt
  
  AvgQty
- 마이닝 구조 이름에 다음을 입력합니다. All Regions
- 마이닝 모델 이름에 다음을 입력합니다. All Regions
새 구조 및 새 모델을 처리합니다.

예측 쿼리를 작성하고 대체 데이터를 매핑하려면

모델이 아직 열려 있지 않은 경우 AllRegions 구조를 두 번 클릭하고 데이터 마이닝 디자이너에서 마이닝 모델 예측 탭을 클릭합니다.
마이닝 모델 창에서 AllRegions 모델이 이미 선택되어 있어야 합니다. 그렇지 않은 경우 모델 선택을 클릭한 다음 AllRegions 모델을 선택합니다.
입력 테이블 선택 창에서 사례 테이블 선택을 클릭합니다.
테이블 선택 대화 상자에서 데이터 원본을 T1000 Pacific Region으로 변경한 다음 확인을 클릭합니다.
마이닝 모델과 입력 데이터 간의 조인 선을 마우스 오른쪽 단추로 클릭하고 연결 수정을 선택합니다. 데이터 원본 뷰에 있는 데이터를 다음과 같이 모델에 매핑합니다.
1. 마이닝 모델의 ReportingDate 열이 입력 데이터의 ReportingDate 열에 매핑되어 있는지 확인합니다.
2. 매핑 수정 대화 상자의 모델 열 AvgQty에 대한 행에서 테이블 열 아래를 클릭한 다음 T1000 Pacific.Quantity를 선택합니다. 확인을 클릭합니다.
  
  이 단계에서는 모델에서 평균 수량 예측을 위해 만든 열을 판매 수량에 대한 T1000 계열의 실제 데이터로 매핑합니다.
3. 모델에 있는 Region 열은 입력 열에 매핑하지 않습니다.
  
  모델이 모든 계열의 데이터를 집계했으므로 T1000 Pacific과 같은 계열에 해당하는 항목이 없으며 예측 쿼리를 실행하면 오류가 발생합니다.
이제 예측 쿼리를 작성합니다.

우선 모델로부터 예측과 함께 AllRegions 레이블을 출력하는 결과에 열을 추가합니다. 이 방법을 통해 결과가 일반 모델을 기반으로 한다는 것을 알 수 있습니다.
1. 표에서 원본 아래의 첫 번째 빈 행을 클릭한 다음 AllRegions mining model을 선택합니다.
2. 필드에 대해 Region을 선택합니다.
3. 별칭에 Model Used를 입력합니다.
다음으로 예측이 계열용임을 알 수 있도록 다른 레이블을 결과에 추가합니다.
1. 빈 행을 클릭하고 원본 아래에서 사용자 지정 식을 선택합니다.
2. 별칭 열에 ModelRegion을 입력합니다.
3. 조건/인수 열에 'T1000 Pacific'을 입력합니다.
이제 교차 예측 함수를 설정합니다.
1. 빈 행을 클릭하고 원본 아래에서 예측 함수를 선택합니다.
2. 필드 열에서 PredictTimeSeries를 선택합니다.
3. 별칭에 Predicted Values를 입력합니다.
4. 끌어서 놓기 작업을 사용하여 마이닝 모델 창에서 AvgQty 필드를 끌어 조건/인수 열에 놓습니다.
5. 조건/인수 열에서 필드 이름 뒤에 다음 텍스트를 입력합니다. ,5, REPLACE_MODEL_CASES
  
  조건/인수 입력란의 전체 텍스트는 다음과 같아야 합니다. [AllRegions].[AvgQty],5,REPLACE_MODEL_CASES
결과를 클릭합니다.

DMX에서 교차 예측 쿼리 만들기

교차 예측의 문제를 발견할 수 있습니다. 즉, 북미 지역의 T1000 제품 모델과 같이 다른 데이터 계열에 일반 모델을 적용하려면 각 계열에 대해 서로 다른 쿼리를 만들어야 하므로 모델에 대한 각 입력 집합을 매핑할 수 있습니다.

그러나 디자이너에서 쿼리를 작성하지 않고 DMX 뷰로 전환하여 이미 작성된 DMX 문을 편집할 수 있습니다. 예를 들어 다음 DMX 문은 작성한 쿼리를 나타냅니다.

SELECT
      ([All Regions].[Region]) as [Model Used],
      ('T-1000 Pacific') as [ModelRegion],
      (PredictTimeSeries([All Regions].[Avg Qty],5, REPLACE_MODEL_CASES)) as [Predicted Quantity]
     FROM [All Regions]
PREDICTION JOIN
    OPENQUERY([Adventure Works DW2003R2], 'SELECT [ReportingDate] FROM
      (
       SELECT  ReportingDate, ModelRegion, Quantity, Amount 
       FROM dbo.vTimeSeries 
       WHERE (ModelRegion = N''T1000 Pacific'')
       ) as [T1000 Pacific]    ') 
    AS t
ON 
[All Regions].[Reporting Date] = t.[ReportingDate] 
AND 
[All Regions].[Avg Qty] = t.[Quantity]

이를 다른 모델에 적용하려면 쿼리 문을 편집하여 필터 조건을 바꾸고 각 결과에 연결된 레이블을 업데이트합니다.

예를 들어 'Pacific'을 'North America'로 바꿔 필터 조건 및 열 레이블을 변경하는 경우 일반 모델의 패턴을 기반으로 북미의 T1000 제품에 대한 예측을 얻게 됩니다.

단원의 다음 태스크

예측 모델에 대한 예측 비교(중급 데이터 마이닝 자습서)

참고 항목

참조

PredictTimeSeries(DMX)

개념

시계열 모델 쿼리 예제

다음을 통해 공유