관계형 마이닝 구조 만들기

아티클
07/30/2013

대부분의 데이터 마이닝 모델은 관계형 데이터 원본을 기반으로 합니다. 관계형 데이터 마이닝 모델을 만들면 복잡하게 큐브를 만들 필요 없이 임시 데이터를 조합하여 모델을 학습 및 업데이트할 수 있는 이점이 있습니다.

관계형 마이닝 구조는 서로 다른 원본에서 데이터를 가져올 수 있습니다. 데이터를 데이터 원본 뷰의 일부로 정의할 수 있는 경우 원시 데이터를 테이블, 파일 또는 관계형 데이터베이스 시스템에 저장할 수 있습니다. 예를 들어 데이터가 Excel, SQL Server 데이터 웨어하우스 또는 SQL Server 보고 데이터베이스에 있거나 OLE DB 또는 ODBC 공급자를 통해 액세스하는 외부 원본에 있는 경우 관계형 마이닝 구조를 사용해야 합니다.

이 항목에서는 데이터 마이닝 마법사를 사용하여 관계형 마이닝 구조를 만드는 방법에 대해 간략하게 설명합니다.

요구 사항

관계형 마이닝 구조를 만드는 프로세스

데이터 원본을 선택하는 방법

내용 유형 및 데이터 형식을 지정하는 방법

홀드아웃 데이터 집합을 만드는 이유 및 방법

드릴스루를 사용하는 이유 및 방법

요구 사항

먼저 기존 데이터 원본이 있어야 합니다. 데이터 원본 디자이너를 사용하여 데이터 원본(없는 경우)을 설정할 수 있습니다. 자세한 내용은 데이터 원본 만들기(SSAS 다차원)를 참조하십시오.

그런 다음 데이터 원본 뷰 마법사를 사용하여 필요한 데이터를 단일 데이터 원본 뷰로 조합합니다. 데이터 원본 뷰를 사용하여 데이터를 선택, 변환, 필터링 또는 관리하는 방법은 다차원 모델의 데이터 원본 뷰를 참조하십시오.

프로세스 개요

솔루션 탐색기에서 마이닝 구조 노드를 마우스 오른쪽 단추로 클릭한 다음 새 마이닝 구조 추가를 선택하여 데이터 마이닝 마법사를 시작합니다. 마법사에서 새 관계형 마이닝 모델의 구조를 만들기 위한 다음 단계를 안내합니다.

정의 방법 선택: 여기에서 데이터 원본 유형을 선택한 다음 기존 관계형 데이터베이스 또는 데이터 웨어하우스 사용을 선택합니다.
데이터 마이닝 구조 만들기: 구조만 작성할지, 아니면 마이닝 모델이 있는 구조를 작성할지를 결정합니다.

또한 초기 모델에 적절한 알고리즘을 선택합니다. 특정 태스크에 가장 적합한 알고리즘에 대한 지침은 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하십시오.
데이터 원본 뷰 선택: 모델을 학습하는 데 사용할 데이터 원본 뷰를 선택합니다. 데이터 원본 뷰에는 테스트에 사용되는 데이터 또는 관련 없는 데이터도 포함될 수 있습니다. 구조 및 모델에 실제로 사용되는 데이터를 선택할 수 있습니다. 또한 나중에 데이터에 필터를 적용할 수도 있습니다.
테이블 유형 지정: 분석에 사용된 사례가 포함된 테이블을 선택합니다. 일부 데이터 집합, 특히 시장 바구니 모델을 작성하는 데 사용된 데이터 집합의 경우 중첩 테이블로 사용하기 위해 관련 테이블을 포함할 수도 있습니다.

각 테이블에 대해 알고리즘에서 고유 레코드와 관련 레코드(중첩 테이블을 추가한 경우)를 식별하는 방법을 인식할 수 있도록 키를 지정해야 합니다.

자세한 내용은 마이닝 구조 열을 참조하십시오.
학습 데이터 지정: 이 페이지에서는 가장 중요한 분석 데이터가 포함된 테이블인 사례 테이블을 선택합니다.

일부 데이터 집합, 특히 시장 바구니 모델을 작성하는 데 사용된 데이터 집합의 경우 관련 테이블을 포함할 수도 있습니다. 해당 중첩 테이블의 값은 모두 주 테이블의 단일 행(또는 사례)과 관련된 다중 값으로 처리됩니다.
열 내용 및 데이터 형식 지정: 구조에서 사용하는 각 열에 대해 데이터 형식과 내용 유형을 선택해야 합니다.

마법사에서 가능한 데이터 형식을 자동으로 검색하지만 마법사에서 권장하는 데이터 형식을 사용할 필요는 없습니다. 예를 들어 데이터에 숫자가 포함된 경우 해당 숫자가 범주 데이터를 나타낼 수도 있습니다. 키로 지정한 열에는 해당 특정 모델 유형에 올바른 데이터 형식이 자동으로 할당됩니다. 자세한 내용은 마이닝 모델 열 및 데이터 형식(데이터 마이닝)을 참조하십시오.

모델에서 사용할 각 열에 대해 선택한 내용 유형은 알고리즘에 데이터 처리 방법을 알려 줍니다.

예를 들어 연속 값을 사용하는 대신 숫자를 분할할 수 있습니다. 또한 알고리즘에서 열에 가장 적합한 내용 유형을 자동으로 검색하도록 할 수 있습니다. 자세한 내용은 내용 유형(데이터 마이닝)을 참조하십시오.
테스트 집합 만들기: 이 페이지에서는 마법사에 모델을 테스트하는 데 사용하기 위해 남겨 둘 데이터의 양을 지정할 수 있습니다. 데이터가 여러 모델을 지원하는 경우 모든 모델을 같은 데이터에서 테스트할 수 있도록 홀드아웃 데이터 집합을 만드는 것이 좋습니다.

자세한 내용은 테스트 및 유효성 검사(데이터 마이닝)를 참조하십시오.
마법사 완료: 이 페이지에서는 새 마이닝 구조와 관련 마이닝 모델의 이름을 지정하고 구조 및 모델을 저장합니다.

또한 모델 유형에 따라 몇 가지 중요한 옵션을 설정할 수 있습니다. 예를 들어 구조에서 드릴스루를 사용하도록 설정할 수 있습니다.

이 시점에서는 마이닝 구조와 해당 모델이 메타데이터일 뿐이므로 결과를 얻기 위해 둘 다 처리해야 합니다.

관계형 데이터를 선택하는 방법

관계형 마이닝 구조는 OLE DB 데이터 원본을 통해 사용 가능한 모든 데이터를 기반으로 할 수 있습니다. 원본 데이터가 여러 개의 테이블에 포함되어 있는 경우 데이터 원본 뷰를 사용하여 필요한 테이블과 열을 한곳에서 조합할 수 있습니다.

테이블에 일 대 다 관계가 들어 있는 경우(예: 분석하려는 각 고객의 구매 레코드가 여러 개 있는 경우) 두 테이블을 모두 추가한 다음 한 테이블을 사례 테이블로 사용하고 관계의 다 쪽에 있는 데이터를 중첩 테이블로 연결할 수 있습니다.

마이닝 구조의 데이터는 기존 데이터 원본 뷰에서 파생됩니다. 데이터 원본 뷰 내에서 기본 관계형 데이터에 없을 수 있는 관계 또는 파생 열을 추가하는 등 필요에 따라 데이터를 수정할 수 있습니다. 또한 데이터 원본 뷰 내에서 명명된 계산 또는 집계를 만들 수 있습니다. 이러한 기능은 데이터 원본의 데이터 배열을 제어할 수 없거나 데이터 마이닝 모델에 대해 다른 데이터 집계로 시험하려는 경우에 매우 편리합니다.

사용 가능한 데이터를 모두 사용해야 하는 것은 아닙니다. 마이닝 구조에 포함할 열을 선택할 수 있습니다. 해당 구조를 기반으로 하는 모든 모델에서 이러한 열을 사용하거나 특정 모델에 대해 특정 열의 플래그를 Ignore로 지정할 수 있습니다. 데이터 마이닝 모델의 사용자가 마이닝 모델의 결과에서 드릴다운하여 마이닝 모델 자체에 포함되지 않은 추가 마이닝 구조 열을 보도록 할 수도 있습니다.

내용 유형 및 데이터 형식을 지정하는 방법

데이터 형식은 SQL Server 또는 다른 응용 프로그램 인터페이스에서 지정하는 데이터 형식(예: 날짜 및 시간, 다양한 크기, 부울 값, 텍스트 및 기타 불연속 데이터)과 거의 동일합니다.

그러나 내용 유형은 데이터 마이닝에 중요하며 분석 결과에 영향을 줍니다. 내용 유형은 알고리즘에 다음과 같이 데이터를 사용하여 수행해야 하는 작업을 알려 줍니다. 숫자를 연속적인 눈금으로 처리할지 범주화할지 여부. 잠재적인 값의 개수. 각 값이 고유한지 여부. 값이 키인 경우 종류에 관계없이 날짜/시간 값을 나타내는지, 시퀀스를 나타내는지, 다른 종류의 키를 나타내는지 여부.

선택한 데이터 형식에 따라 선택 가능한 내용 유형이 제한될 수 있습니다. 예를 들어 숫자가 아닌 값은 분할할 수 없습니다. 원하는 내용 유형이 보이지 않으면 뒤로를 클릭하여 데이터 형식 페이지로 돌아가 다른 데이터 형식을 선택해 보십시오.

잘못된 내용 유형이 나타났다고 너무 걱정할 필요는 없습니다. 새 내용 유형이 마이닝 구조의 데이터 형식 집합에서 지원되는 경우 손쉽게 새 모델을 만들고 해당 모델 내에서 내용 유형을 변경할 수 있습니다. 또한 서로 다른 내용 유형을 사용하여 시험적으로 여러 모델을 만들거나 다른 알고리즘의 요구 사항을 충족하는 것도 매우 간편합니다.

예를 들어 데이터에 Income 열이 포함된 경우 Microsoft 의사 결정 트리 알고리즘을 사용할 때 서로 다른 두 가지 모델을 만들어 해당 열을 연속 숫자 또는 불연속 범위로 교대로 구성할 수 있습니다. 그러나 Microsoft Naïve Bayes 알고리즘을 사용하여 모델을 추가한 경우 이 알고리즘은 연속 숫자를 지원하지 않으므로 열을 분할된 값으로 변경해야 합니다.

데이터를 학습 집합과 테스트 집합으로 분할하는 이유 및 방법

마법사의 거의 마지막 단계에서는 데이터를 학습 집합과 테스트 집합으로 분할할지 여부를 결정해야 합니다. 테스트용으로 임의로 샘플링된 데이터의 일부를 프로비전하는 기능은 새 마이닝 구조와 연결된 모든 마이닝 모델에 일관된 테스트 데이터 집합을 사용할 수 있도록 하므로 매우 편리합니다.

주의
일부 모델 유형에는 이 옵션을 사용할 수 없습니다. 예를 들어 예측 모델을 만드는 경우 시계열 알고리즘에서는 데이터에 간격이 없어야 하므로 홀드아웃을 사용할 수 없습니다. 홀드아웃 데이터 집합을 지원하는 모델 유형 목록은 데이터 집합 학습 및 테스트을 참조하십시오.

이러한 홀드아웃 데이터 집합을 만들려면 테스트에 사용할 데이터의 백분율을 지정해야 합니다. 나머지 데이터는 모두 학습에 사용됩니다. 필요에 따라 테스트에 사용할 최대 사례 수를 설정하거나 임의 선택 프로세스를 시작하는 데 사용할 초기값을 설정할 수 있습니다.

홀드아웃 데이터 집합의 정의는 마이닝 구조와 함께 저장되므로 해당 구조를 기반으로 하는 새 모델을 만들 때마다 테스트 데이터 집합을 사용하여 모델의 정확도를 평가할 수 있습니다. 마이닝 구조의 캐시를 삭제하면 학습에 사용된 사례와 테스트에 사용된 사례에 대한 정보도 함께 삭제됩니다.

드릴스루를 사용하는 이유 및 방법

마법사의 거의 마지막 단계에서는 드릴스루를 사용하도록 설정하는 옵션이 제공됩니다. 이 옵션을 실제로 중요하지만 간과하기 쉽습니다. 드릴스루를 사용하면 마이닝 모델을 쿼리하여 마이닝 구조의 원본 데이터를 볼 수 있습니다.

이 정보가 왜 중요할까요? 클러스터링 모델의 결과를 볼 때 특정 클러스터에 속한 고객을 보려는 경우를 가정해 보겠습니다. 드릴스루를 사용하면 연락처 정보와 같은 세부 정보를 볼 수 있습니다.

주의
드릴스루를 사용하려면 마이닝 구조를 만들 때 드릴스루를 사용하도록 설정해야 합니다. 나중에 모델에서 속성을 설정하여 드릴스루를 사용하도록 설정할 수 있지만 마이닝 구조의 경우 이 옵션을 시작할 때 설정해야 합니다. 자세한 내용은 드릴스루 쿼리(데이터 마이닝)을 참조하십시오.