구조 및 모델 처리(Analysis Services - 데이터 마이닝)
데이터 마이닝 개체는 처리되기 전까지는 단순히 빈 컨테이너입니다. 데이터 마이닝 모델을 처리하는 작업을 학습이라고도 합니다.
마이닝 구조 처리: 마이닝 구조는 외부 데이터 원본에서 열 바인딩 및 사용법 메타데이터에 의해 정의된 데이터를 가져와서 읽습니다. 이 데이터 전체를 읽은 다음 분석하여 다양한 통계를 추출합니다. Analysis Services에서는 데이터 마이닝 알고리즘으로 분석하는 데 적합한 데이터의 압축된 표현을 로컬 캐시에 저장합니다. 이 캐시는 보관하거나 모델 처리 후 제거할 수 있습니다. 기본적으로 캐시는 저장됩니다. 자세한 내용은 방법: 마이닝 구조 처리를 참조하십시오.
마이닝 모델 처리: 마이닝 모델은 처리되기 전까지는 정의만 들어 있는 빈 개체입니다. 마이닝 모델을 처리하려면 먼저 해당 모델의 기반이 되는 마이닝 구조를 처리해야 합니다. 마이닝 모델은 마이닝 구조 캐시에서 데이터를 가져오고, 모델에 필터가 만들어진 경우 이를 적용한 다음, 알고리즘을 통해 데이터 집합을 전달하여 패턴을 검색합니다. 모델이 처리된 후 모델에는 데이터 자체가 아니라 처리 결과만 저장됩니다. 자세한 내용은 방법: 마이닝 모델 처리를 참조하십시오.
다음 다이어그램에서는 마이닝 구조가 처리될 때와 마이닝 모델이 처리될 때의 데이터 흐름을 보여 줍니다.
처리 중의 관계형 저장소에 대한 쿼리
처리에는 원본 데이터 쿼리, 원시 통계 확인, 마이닝 모델 학습을 위한 모델 정의 및 알고리즘 사용의 세 가지 단계가 있습니다.
Analysis Services 서버는 원시 데이터를 제공하는 데이터베이스로 쿼리를 실행합니다. 이 데이터베이스는 SQL Server 2008의 인스턴스일 수도 있고 이전 버전의 SQL Server 데이터베이스 엔진일 수도 있습니다. 데이터 마이닝 구조를 처리할 때 원본의 데이터는 마이닝 구조로 전송되고 디스크에 압축된 새 형식으로 저장됩니다. 데이터 원본의 모든 열이 처리되는 것은 아니고, 마이닝 구조에 포함되어 있으며 바인딩에 의해 정의된 열만 처리됩니다.
Analysis Services는 이 데이터를 사용하여 모든 데이터 및 분할된 열의 인덱스를 작성하고 연속 열에 대한 별도의 인덱스를 만듭니다. 중첩 테이블당 하나의 쿼리가 실행되어 인덱스를 만들고, 중첩 테이블당 또 하나의 추가 쿼리가 생성되어 각 중첩 테이블과 사례 테이블 쌍 간의 관계를 처리합니다. 여러 개의 쿼리를 만드는 이유는 특수 내부 OLAP(온라인 분석 처리) 큐브를 처리하기 위해서입니다. DatabaseConnectionPoolMax 서버 속성을 설정하여 Analysis Services가 관계형 저장소에 보내는 쿼리의 수를 제한할 수 있습니다. 자세한 내용은 OLAP 속성을 참조하십시오.
모델을 처리할 때 모델은 데이터 원본에서 데이터를 다시 읽지 않고 대신 마이닝 구조에서 데이터의 요약을 가져옵니다. 캐시된 인덱스와 함께 만든 큐브를 사용하여 사례 데이터가 캐시되면 서버는 모델 학습을 위한 독립 스레드를 만듭니다.
SQL Server Enterprise에서 모든 처리는 병렬로 수행됩니다. SQL Server Standard에서 처리는 직렬화됩니다.
처리 결과 보기
마이닝 구조가 처리된 후 해당 마이닝 구조에는 통계 분석에 사용할 데이터의 압축된 표현이 포함됩니다. 캐시가 지워지지 않은 경우 다음 방법으로 이 캐시의 데이터에 액세스할 수 있습니다.
모델에 대한 DMX(Data Mining Extensions) 쿼리를 만들고 구조로 드릴스루합니다. 자세한 내용은 SELECT FROM <model>.CASES(DMX)를 참조하십시오.
해당 구조를 기반으로 하는 모델을 찾아보고 사용자 인터페이스의 옵션 중 하나를 사용하여 구조 사례로 드릴스루합니다. 자세한 내용은 데이터 마이닝 모델 보기 또는 방법: 마이닝 모델에서 사례 데이터로 드릴스루를 참조하십시오.
구조 사례에 대한 DMX 쿼리를 만듭니다. 자세한 내용은 SELECT FROM <structure>.CASES를 참조하십시오.
마이닝 모델이 처리된 후 해당 마이닝 모델에는 분석에서 얻은 패턴과 모델 결과에서 캐시된 학습 데이터로의 매핑만 포함됩니다. 모델 콘텐츠라는 모델 결과를 찾아보거나 쿼리할 수도 있고, 모델 결과가 캐시된 경우 모델 및 구조 사례를 쿼리할 수도 있습니다.
각 마이닝 모델의 모델 콘텐츠는 마이닝 모델을 만드는 데 사용된 알고리즘에 따라 달라집니다. 예를 들어 한 모델은 클러스터링 모델이고 다른 모델은 의사 결정 트리 모델인 경우 모델이 동일한 데이터를 사용하더라도 모델 콘텐츠는 매우 달라집니다. 자세한 내용은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오.