시퀀스 클리스터링 모델 탐색(데이터 마이닝 자습서)
이제 Sequence Clustering 모델을 구축했으므로 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에 있는 Microsoft 시퀀스 클러스터링 뷰어를 사용하여 탐색할 수 있습니다. Microsoft 시퀀스 클러스터링 뷰어에는 클러스터 다이어그램, 클러스터 프로필, 클러스터 특징, 클러스터클러스터 판별 및 상태 전환의 다섯 탭이 있습니다. 이 뷰어를 사용하는 방법은 Microsoft 시퀀스 클러스터 뷰어를 사용하여 마이닝 모델 보기를 참조하십시오.
클러스터 다이어그램 탭
클러스터 다이어그램 탭에는 알고리즘이 데이터베이스에서 검색한 클러스터가 그래픽으로 표시됩니다. 다이어그램의 레이아웃은 클러스터 관계를 나타내는데 비슷한 클러스터는 서로 가깝게 그룹화됩니다. 기본적으로 노드 색의 음영은 클러스터에 있는 모든 사례의 밀도를 나타내는데 노드가 어두울수록 많은 사례가 포함되어 있습니다. 노드 음영의 의미를 변경하여 특성과 상태를 나타낼 수 있습니다. 예를 들어 음영 변수 목록에서는 Model을, 상태 목록에서는 Cycling Cap을 선택합니다. 클러스터 다이어그램에는 클러스터 9에 최고 밀도의 자전거 모자가 포함되어 있다고 표시됩니다.
클러스터 프로필 탭
클러스터 프로필 탭에는 각 클러스터에 존재하는 시퀀스가 표시됩니다. 클러스터는 상태 열 오른쪽의 개별 열에 나열됩니다.
뷰어에서 Model.samples 행은 시퀀스 데이터를 나타내고 Model 행은 클러스터에 있는 항목의 전체 분포를 설명합니다. Model.samples 행의 각 셀에 있는 색 시퀀스의 각 줄은 클러스터에서 임의로 선택된 사용자의 동작을 나타냅니다. 개별 시퀀스 히스토그램의 각 색은 제품 모델을 나타냅니다.
예를 들어 클러스터 3의 바다색은 Mountain-200 자전거를 나타냅니다. Mountain-200 자전거는 대부분의 시퀀스에서 첫 번째 색으로 존재하므로 고객이 먼저 구매할 가능성이 매우 높습니다.
클러스터 특징 탭
클러스터 특징 탭에는 클러스터 상태 간의 전환이 요약되고 선택한 클러스터에 대한 특성 값의 중요도를 설명하는 막대가 포함됩니다. 예를 들어 클러스터 10에서 가장 중요한 프로필 중 하나는 고객이 ML 자전거 타이어를 먼저 구매하는 경향이 있다는 것입니다.
클러스터 판별 탭
클러스터 판별 탭을 사용하면 두 클러스터를 비교하여 어떤 모델에서 어떤 클러스터를 선호하는지 확인할 수 있습니다. 이 탭에는 변수, 값, 클러스터 1 및 클러스터 2의 네 열이 있습니다. 클러스터에서 특정 모델을 선호하면 변수 열에서 해당 모델의 행에 있는 클러스터 1 또는 클러스터 2 열에 파랑 막대가 나타납니다. 파랑 막대가 길수록 모델에서 선호하는 클러스터 수가 늘어납니다.
예를 들어 뷰어의 클러스터 판별 탭을 사용하면 클러스터 1에서는 클러스터 2를, 클러스터 2에서는 클러스터 5를 선택하여 클러스터 2를 클러스터 5와 비교할 수 있습니다. 값 열의 Mountain Bottle Cage가 나타내듯이 산악 자전거용 물병 케이지를 구매하는 고객은 클러스터 5에 속할 가능성이 높고 값 열의 Touring Tire가 나타내듯이 여행용 타이어를 구매하는 고객은 클러스터 2 그룹에 속할 가능성이 높습니다.
상태 전환 탭
상태 전환 탭에서는 클러스터를 선택하여 해당 상태 전환을 탐색할 수 있습니다. 각 노드는 Mountain-200 등의 모델 상태를 나타냅니다. 줄은 상태 간의 전환을 나타내고 각 노드는 전환의 확률을 기반으로 합니다. 배경색은 클러스터에 있는 노드의 빈도를 나타냅니다.
예를 들어 클러스터에서 클러스터 3을 선택하고 Touring-3000 노드를 선택한 다음 모든 링크 슬라이더를 몇 단계 내립니다. 뷰어에서 볼 수 있듯이 고객이 여행용 타이어를 구매한 경우 다음에 여행용 타이어 튜브를 구매할 확률은 파랑 화살표가 나타내듯이 0.63이고 Sport 100 자전거도 구매할 확률은 0.26입니다.