분할 방법(데이터 마이닝)

아티클
12/23/2023

적용 대상: SQL Server 2019 및 이전 Analysis Services Azure Analysis Services Fabric/Power BI Premium

중요

데이터 마이닝은 SQL Server 2017 Analysis Services에서 더 이상 사용되지 않으며 이제 SQL Server 2022 Analysis Services에서 중단되었습니다. 더 이상 사용되지 않는 기능 및 중단된 기능에 대해서는 설명서가 업데이트되지 않습니다. 자세한 내용은 Analysis Services 이전 버전과의 호환성을 참조하세요.

SQL Server SQL Server Analysis Services 데이터 마이닝 모델을 만드는 데 사용되는 일부 알고리즘은 올바르게 작동하려면 특정 콘텐츠 형식이 필요합니다. 예를 들어 Microsoft Naive Bayes 알고리즘은 연속 열을 입력으로 사용할 수 없으며 연속 값을 예측할 수 없습니다. 또한 일부 열에는 포함된 값이 너무 많아 알고리즘에서 모델을 만들기 위한 데이터 패턴을 쉽게 식별할 수 없습니다.

이 경우 알고리즘을 사용하여 마이닝 모델을 생성할 수 있도록 열의 데이터를 분할할 수 있습니다. 분할 은 가능한 상태의 수를 제한하기 위해 값을 버킷에 넣는 프로세스로서, 버킷 자체는 정렬된 불연속 값으로 처리됩니다. 숫자 및 문자열 열을 모두 분할할 수 있습니다.

데이터를 분할하는 데 사용할 수 있는 여러 가지 방법이 있습니다. 데이터 마이닝 솔루션에서 관계형 데이터를 사용하는 경우 DiscretizationBucketCount 속성 값을 설정하여 데이터를 그룹화하는 데 사용할 버킷 수를 제어할 수 있습니다. 기본 버킷 수는 5개입니다.

데이터 마이닝 솔루션에서 OLAP(온라인 분석 처리) 큐브의 데이터를 사용하는 경우 데이터 마이닝 알고리즘은 다음 수식을 사용하여 생성할 버킷 수를 계산합니다. 여기서 n은 열에 있는 데이터의 고유 값 수입니다.

Number of Buckets = sqrt(n)

SQL Server Analysis Services 버킷 수를 계산하지 않으려면 속성을 사용하여 DiscretizationBucketCount 버킷 수를 수동으로 지정할 수 있습니다.

다음 표에서는 SQL Server Analysis Services 데이터를 불연속화하는 데 사용할 수 있는 메서드에 대해 설명합니다.

분할 방법	설명
자동 번역	SQL Server Analysis Services 사용할 불연속화 방법을 결정합니다.
클러스터	이 알고리즘은 학습 데이터를 샘플링하여 임의의 지점 수로 초기화하고 EM(Expectation Maximization) 클러스터링 방법으로 Microsoft 클러스터링 알고리즘을 여러 번 반복 실행하여 데이터를 그룹으로 나눕니다. CLUSTERS 방법은 모든 분포 곡선에서 실행되기 때문에 유용합니다. 그러나 다른 분할 방법보다 처리 시간이 오래 걸립니다. 이 방법은 숫자 열에만 사용할 수 있습니다.
EQUAL_AREAS	이 알고리즘은 각 그룹에 동일한 수의 값이 포함되도록 데이터를 그룹으로 나눕니다. 이 방법은 정규 분포 곡선에 가장 효과적이며 연속 데이터의 제한된 그룹에 많은 값이 포함된 분포에서는 제대로 실행되지 않습니다. 예를 들어 항목의 절반에 대한 비용이 0인 경우 해당 데이터의 절반이 곡선의 단일 지점에서 발생합니다. 이러한 분포에서 이 방법은 여러 영역에 같은 분할을 설정하기 위해 데이터를 분리하므로 데이터가 잘못 표현됩니다.

설명

EQUAL_AREAS 메서드를 사용하여 문자열을 불연속화할 수 있습니다.
CLUSTERS 방법은 1000개 레코드의 무작위 샘플링을 사용하여 데이터를 분할합니다. 알고리즘에서 데이터를 샘플링하지 않으려면 EQUAL_AREAS 메서드를 사용합니다.

참고 항목

내용 유형(데이터 마이닝)
콘텐츠 형식(DMX)
데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)
마이닝 구조(Analysis Services - 데이터 마이닝)
데이터 형식(데이터 마이닝)
마이닝 구조 열
열 배포(데이터 마이닝)

다음을 통해 공유

분할 방법(데이터 마이닝)

설명

참고 항목

피드백

추가 리소스