대상 메일 모델 탐색(데이터 마이닝 자습서)
프로젝트의 모델이 처리되면 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭을 사용하여 볼 수 있습니다. 탭 상단의 마이닝 모델 목록을 사용하여 마이닝 구조에서 개별 모델을 검사할 수 있습니다.
다음 섹션에서는 뷰어에서 마이닝 모델을 탐색하는 방법을 설명합니다.
- Microsoft 의사결정 트리 모델
- Microsoft 클러스터링 모델
- Microsoft Naive Bayes 모델
Microsoft 의사결정 트리 모델
데이터 마이닝 디자이너에서 Adventure Works DM 자습서 프로젝트의 마이닝 모델 뷰어 탭으로 전환하면 구조의 첫 번째 모델인 대상 메일 마이닝 모델이 열립니다. Analysis Services에서 모델을 작성하는 데 사용하는 알고리즘마다 다른 유형의 결과가 반환됩니다. 따라서 Analysis Services에서는 각 알고리즘에 대해 별개의 뷰어를 제공합니다. 마이닝 모델을 검색하면 모델에 적합한 뷰어를 사용하여 마이닝 모델 뷰어 탭에 모델이 표시됩니다. 이 경우 의사결정 트리 모델에는 Microsoft 트리 뷰어가 사용됩니다. 이 뷰어에는 의사결정 트리와 종속성 네트워크의 두 탭이 있습니다.
의사결정 트리
의사결정 트리 탭에서는 마이닝 모델을 구성하는 모든 트리 모델을 검사할 수 있습니다. 이 자습서 프로젝트의 대상 메일 모델에는 단일 예측 가능 특성인 Bike Buyer만 있기 때문에 트리가 하나만 표시됩니다. 트리가 더 있으면 트리 상자를 사용하여 다른 트리를 선택할 수 있습니다.
기본적으로 Microsoft 트리 뷰어에는 트리의 처음 세 수준만 표시됩니다. 트리의 수준이 셋 미만이면 뷰어에 기존 수준만 표시됩니다. 수준 표시 슬라이더나 기본 확장 목록을 사용하여 더 많은 수준을 볼 수 있습니다. 뷰어 구성 방법은 Microsoft 트리 뷰어를 사용하여 마이닝 모델 보기를 참조하십시오.
트리를 수정하려면
수준 표시 슬라이더를 5로 이동합니다.
배경 목록을 1로 변경합니다.
배경 설정을 변경하여 각 노드에 있는 1과 같은 Bike Buyer 사례 개수를 빠르게 볼 수 있습니다. 노드의 음영이 짙을수록 노드에 있는 사례 개수가 많습니다.
의사결정 트리의 각 노드에는 다음 정보가 표시됩니다.
- 상위 노드에서 해당 노드에 도달하는 데 필요한 조건. 포인터를 노드 위로 가져가 정보 팁을 표시하거나 마이닝 범례에서 전체 노드 경로를 확인할 수 있습니다.
- 인기도 순서로 예측 가능 열의 상태 분포를 설명하는 히스토그램. 히스토그램 컨트롤을 사용하여 히스토그램에 나타나는 상태 개수를 제어할 수 있습니다.
- 사례의 집중(배경 컨트롤에서 예측 가능 특성의 상태를 지정한 경우)
노드를 마우스 오른쪽 단추로 클릭한 다음 드릴스루를 선택하여 각 노드에서 지원하는 성향 습득 사례를 확인할 수 있습니다.
종속성 네트워크
종속성 네트워크 탭에는 마이닝 모델의 예측 기능에 기여하는 특성 간의 관계가 표시됩니다.
종속성 네트워크의 가운데 노드인 Bike Buyer는 마이닝 모델의 예측 가능 특성을 나타냅니다. 주변에 있는 각 노드는 예측 가능 특성의 결과에 영향을 주는 특성을 나타냅니다. 탭 왼쪽의 슬라이더를 사용하여 표시되는 링크의 강도를 제어할 수 있습니다. 슬라이더를 아래로 이동하면 가장 강한 링크만 표시됩니다.
네트워크에서 개별 노드를 클릭한 다음 탭 하단의 색 범례를 참조하여 선택한 노드에서 예측하는 노드나 선택한 노드를 예측하는 노드를 확인합니다.
Microsoft 클러스터링 모델
마이닝 모델 뷰어 탭 상단의 마이닝 모델 목록을 사용하여 TM_Clustering 모델로 전환할 수 있습니다. 이 모델의 뷰어인 Microsoft 클러스터 뷰어에는 클러스터 다이어그램, 클러스터 프로필, 클러스터 특징 및 클러스터 판별의 네 탭이 있습니다. 기본적으로 뷰어를 처음 열면 클러스터 다이어그램 탭이 표시됩니다.
Microsoft 클러스터 뷰어 구성 방법은 Microsoft 클러스터 뷰어를 사용하여 마이닝 모델 보기를 참조하십시오.
클러스터 다이어그램
클러스터 다이어그램 탭을 사용하여 알고리즘에서 검색한 클러스터 간의 관계를 탐색할 수 있습니다. 클러스터 사이의 선은 "일치 정도"를 나타내며 클러스터가 얼마나 비슷한지에 따라 음영 처리됩니다. 각 클러스터의 실제 색은 클러스터에 있는 변수와 상태의 빈도를 나타냅니다. 노드 상단의 음영 변수 및 상태 상자에서 변수와 상태를 선택할 수 있습니다. 기본 변수는 'Population'이지만 이를 모델의 다른 특성으로 변경하여 원하는 특성이 있는 멤버를 포함하는 클러스터를 검색할 수 있습니다. 네트워크 왼쪽의 슬라이더를 사용하여 약한 링크를 필터로 제외시키고 가장 밀접한 관계가 있는 클러스터를 찾을 수 있습니다.
예를 들어 음영 변수는 Bike Buyer로, 상태는 1로 설정합니다. 클러스터 5에 최고 밀도의 자전거 구매자가 있고 클러스터 4와 클러스터 7 간의 관계가 가장 강함을 알 수 있습니다.
클러스터 프로필
클러스터 프로필 탭을 사용하여 TM_Clustering 모델을 전체적으로 볼 수 있습니다. 뷰어에서 볼 수 있듯이 클러스터 프로필 탭에는 모델의 각 클러스터에 해당하는 열이 있습니다. 첫 번째 열에는 적어도 하나의 클러스터와 연결된 특성이 나열됩니다. 뷰어의 나머지 부분에는 각 클러스터에 대한 특성의 상태 분포가 있습니다. 불연속 변수의 분포는 히스토그램 막대 목록에 최대 막대 개수와 함께 색이 지정된 막대로 표시됩니다. 연속 특성은 각 클러스터의 평균과 표준 편차를 나타내는 다이아몬드 차트를 사용하여 표시됩니다.
클러스터 특징
클러스터 특징 탭을 사용하여 클러스터를 구성하는 특징을 자세히 검사할 수 있습니다. 예를 들어 클러스터 목록을 사용하여 이 자습서 시나리오의 클러스터 5를 표시하면 이 클러스터에 속한 사람들, 즉 과거에 자전거를 구매한 고객들이 차를 소유하지 않고 0-1마일 이내로만 통근하는 기혼자라는 특징을 가지는 경향이 있음을 알 수 있습니다.
클러스터 판별
클러스터 판별 탭을 사용하여 클러스터를 구별하는 특징을 탐색할 수 있습니다. 클러스터 1과 클러스터 2 상자에서 두 개의 클러스터를 선택하면 뷰어에서 클러스터 간의 차이를 판별하여 클러스터를 가장 잘 구별하는 특성의 순서로 표시합니다.
예를 들어 TM_Clustering 모델에서 클러스터 5와 클러스터 7을 비교해 봅시다. 클러스터 5에는 최고 밀도의 자전거 구매자가, 클러스터 7에는 최저 밀도의 자전거 구매자가 있습니다. 클러스터 7에 속한 사람들은 23-31세의 북미 출신 젊은이들인 반면 클러스터 5에 속한 사람들은 유럽 출신이면서 통근 거리가 0-1마일 이내인 경향이 있습니다.
Microsoft Naive Bayes 모델
마이닝 모델 뷰어 탭 상단의 마이닝 모델 목록을 사용하여 TM_NaiveBayes 모델로 전환할 수 있습니다. 이 모델의 뷰어인 Microsoft Naive Bayes 뷰어에는 종속성 네트워크, 특성 프로필, 특성 특징 및 특성 판별의 네 탭이 있습니다.
Microsoft Naive Bayes 뷰어 사용 방법은 Microsoft Naive Bayes 뷰어를 사용하여 마이닝 모델 보기를 참조하십시오.
종속성 네트워크
종속성 네트워크 탭은 Microsoft 트리 뷰어의 종속성 네트워크 탭과 마찬가지로 작동합니다. 뷰어의 각 노드는 특성을, 노드 사이의 선은 관계를 나타냅니다. 뷰어에서 예측 가능 특성인 Bike Buyer의 상태에 영향을 주는 특성을 모두 확인할 수 있습니다.
슬라이더를 내리면 Bike Buyer 열에 가장 큰 영향을 주는 특성만 남습니다. 슬라이더를 조정하여 소유 차량 대수가 자전거 구매자를 판별하는 가장 큰 요인임을 알 수 있습니다.
특성 프로필
특성 프로필 탭은 여러 입력 특성 상태가 예측 가능 특성의 결과에 어떻게 영향을 주는지 설명합니다.
예측 가능 상자에서 Bike Buyer가 선택되어 있는지 확인합니다. 입력 특성의 각 상태 값 및 해당 특성이 예측 가능 특성의 각 상태에서 가지는 분포와 함께 이 예측 가능 특성의 상태에 영향을 주는 특성이 나열됩니다.
특성 특징
특성 특징 탭을 사용하면 특성과 값을 선택하여 다른 특성의 값이 선택한 값 사례에 얼마나 자주 나타나는지 확인할 수 있습니다.
특성 목록에서 Bike Buyer가 선택되어 있는지 확인하고 값 목록에서 1을 선택합니다. 뷰어에서 0-1마일 이내로 통근하는 사람들과 북미 지역에 사는 사람들이 대부분의 자전거를 구매하는 경향이 있음을 알 수 있습니다.
특성 판별
특성 판별 탭을 사용하면 선택한 예측 가능 특성의 두 불연속 값과 다른 특성 값 사이의 관계를 조사할 수 있습니다. TM_NaiveBayes 모델에 있는 상태가 두 개, 즉 1과 0뿐이므로 뷰어를 변경하지 않아도 됩니다.
뷰어에서 차량을 소유하지 않은 사람들은 자전거를 구매하고 두 대의 차량을 소유한 사람들이 자전거를 구매하지 않는 경향이 있음을 알 수 있습니다.