다음을 통해 공유


시퀀스 클러스터링 모델 탐색(중급 데이터 마이닝 자습서)

Sequence Clustering with Region 모델을 작성했으므로 이제 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에 있는 Microsoft 시퀀스 클러스터링 뷰어를 사용하여 해당 모델을 탐색할 수 있습니다. Microsoft 시퀀스 클러스터 뷰어에는 클러스터 다이어그램, 클러스터 프로필, 클러스터 특징, 클러스터클러스터 판별상태 전환의 다섯 탭이 있습니다. 이 뷰어를 사용하는 방법은 Microsoft 시퀀스 클러스터 뷰어를 사용하여 마이닝 모델 보기를 참조하십시오.

  • 클러스터 다이어그램 탭

  • 클러스터 프로필 탭

  • 클러스터 특징 탭

  • 클러스터 판별 탭

  • 상태 전환 탭

  • 일반 콘텐츠 뷰

클러스터 다이어그램 탭

클러스터 다이어그램 탭에는 알고리즘이 데이터베이스에서 검색한 클러스터가 그래픽으로 표시됩니다. 다이어그램의 레이아웃은 비슷한 클러스터가 서로 가깝게 그룹화되는 클러스터 관계를 나타냅니다. 기본적으로 각 노드의 음영은 클러스터에 있는 모든 사례의 밀도를 나타냅니다. 노드의 음영이 짙을수록 노드에 있는 사례 개수가 많습니다. 노드 음영이 각 클러스터 내에서 특성과 상태에 대한 지원을 나타내도록 음영의 의미를 변경할 수 있습니다.

식별 및 대상 클러스터와의 작업이 쉽도록 클러스터의 이름을 바꿀 수도 있습니다. 이 자습서에서는 Pacific 지역에서 고객 비율이 가장 높은 클러스터와 전체적으로 가장 많은 사례를 포함하는 클러스터의 이름을 바꿉니다.

[!참고]

데이터 및 모델 매개 변수에 따라 모델을 다시 처리할 때 특정 클러스터에 할당된 사례가 변경될 수 있습니다. 또한 클러스터의 이름을 바꿀 경우 마이닝 모델을 다시 처리하면 이름이 손실됩니다.

클러스터를 강조 표시하는 데 사용되는 특성을 변경하려면

  1. 음영 변수 목록에서 Model을 선택합니다.

  2. 상태 목록에서 Cycling Cap을 선택합니다.

    다이어그램이 업데이트되어 각 클러스터에서 선택된 제품의 집중 정보가 표시됩니다. 음영이 가장 짙은 클러스터에는 가장 높은 밀도의 자전거 모자가 포함되어 있습니다. 모든 입력 열의 임의 상태를 사용하도록 음영 변수를 변경할 수 있습니다.

  3. 음영 변수 목록에서 Population을 선택합니다.

    음영 변수를 모집단으로 변경하면 다이어그램이 업데이트되어 클러스터가 크기별로 비교됩니다. 음영이 가장 짙은 클러스터에는 다른 클러스터보다 많은 사례가 포함되어 있습니다.

모델 노드의 이름을 바꾸려면

  1. 음영 변수Region으로 변경하고 상태Pacific으로 설정합니다.

  2. 그래프에서 가장 짙은 노드를 강조 표시합니다.

  3. 이 클러스터를 마우스 오른쪽 단추로 클릭하고 클러스터 이름 바꾸기를 선택합니다.

  4. 이름으로 Pacific Cluster를 입력합니다.

  5. 음영 변수의 값을 Population으로 변경합니다.

  6. 업데이트된 그래프에서 가장 짙은 클러스터, 즉 가장 큰 클러스터를 찾습니다. 음영으로 가장 큰 클러스터를 찾을 수 없는 경우 각 클러스터 위에 마우스를 놓으면 나타나는 도구 설명을 확인하여 사례가 가장 많이 포함된 클러스터를 선택합니다.

  7. 이 클러스터를 마우스 오른쪽 단추로 클릭하고 클러스터 이름 바꾸기를 선택합니다. 새 이름으로 Largest Cluster를 입력합니다.

클러스터를 나타내는 노드에서 드릴스루하면 각 클러스터에 있는 사례에 대한 세부 정보를 볼 수 있습니다. 분석 결과에 따라 고객에게 전자 메일을 보내는 등의 조치를 취하려는 경우 이렇게 하면 유용합니다. 구조에 포함했지만 모델에 사용하지는 않은 사례의 기타 특성(예: Region 및 Income Group)을 찾아볼 수도 있습니다. 마이닝 모델에서 기본 사례로 드릴스루하는 방법은 마이닝 모델 및 마이닝 구조에 드릴스루 사용(Analysis Services - 데이터 마이닝)을 참조하십시오.

클러스터 다이어그램에서 세부 정보로 드릴스루하려면

  1. Pacific Cluster를 마우스 오른쪽 단추로 클릭하고 드릴스루를 선택한 다음 모델 및 구조 열을 선택합니다.

    드릴스루 대화 상자가 열립니다. 모델에 사용되지 않았지만 쿼리에 사용할 수 있는 열에는 구조가 접두사로 사용됩니다.

    이 클러스터에 포함된 고객이 대부분 Pacific 지역 고객이고 일부만 다른 지역 고객임을 확인할 수 있습니다.

  2. 중첩 열 v Assoc Seq Line Items의 더하기 기호를 클릭하여 특정 고객 주문에 포함된 항목의 시퀀스를 확인합니다.

  3. 드릴스루 대화 상자를 닫습니다.

    [!참고]

    재생 단추를 사용하면 데이터를 다시 쿼리할 수 있지만 다른 프로세스에 의해 백그라운드에서 모델이 동적으로 업데이트되지 않는 한 다시 쿼리해도 표시되는 데이터가 변경되지 않습니다.

맨 위로 이동

클러스터 프로필 탭

클러스터 프로필 탭에는 각 클러스터에 있는 시퀀스가 표시됩니다. 클러스터는 상태 열 오른쪽의 개별 열에 나열됩니다.

뷰어에서 Model 행은 클러스터에 있는 항목의 전체 분포를 설명하고 Model.samples 행은 항목의 시퀀스를 포함합니다. Model.samples 행의 각 셀에 있는 색 시퀀스의 각 줄은 클러스터에서 임의로 선택된 사용자의 동작을 나타냅니다.

개별 시퀀스 히스토그램의 각 색은 제품 모델을 나타냅니다. 마이닝 범례는 색 구분 및 제품 모델 이름을 모두 사용하여 제품의 시퀀스를 보여 줍니다. 모델에 다른 클러스터링용 열(예: Region 또는 Income Group)을 추가한 경우 뷰어에는 각 클러스터 내에서 이러한 값의 분포를 보여 주는 추가 행이 각 열에 대해 포함됩니다.

클러스터에서 가장 일반적인 시퀀스를 보려면

  1. 클러스터 Largest Cluster의 열에 있는 Model 행을 마우스 오른쪽 단추로 클릭하고 범례 표시를 선택합니다.

    열은 시퀀스에서 항목이 발견되는 빈도를 나타내는 음영 처리된 막대를 포함합니다. 각 항목은 서로 다른 색으로 표시됩니다. 평균 구하기 열은 각 색에 대한 제품 모델 이름을 나열합니다. 분포 열은 시퀀스에서 이 항목을 포함한 사례의 비율을 알려 줍니다.

  2. 마이닝 범례를 닫습니다.

  3. 머리글이 Population인 열에 있는 Model.samples 행을 마우스 오른쪽 단추로 클릭하고 범례 표시를 선택합니다.

  4. 전체 모델에서 시퀀스 목록을 훑어봅니다.

    마이닝 범례에는 가장 일반적인 시퀀스가 먼저 나열되므로 Mountain Tire Tube가 많은 시퀀스에서 첫 번째 항목임을 확인할 수 있습니다. 이는 고객이 시장 바구니에 Mountain Tire Tube를 먼저 담을 가능성이 매우 높음을 의미합니다.

클러스터 뷰어에서 사례로 드릴스루하려면

  1. 특성 창에서 아래로 스크롤하여 Region 특성의 행을 찾습니다.

    이 행은 모델에 있는 각 클러스터에 대한 히스토그램과 Population에 대한 추가 히스토그램 하나, 즉 모델에 사용되는 전체 사례 집합을 포함합니다. 히스토그램은 다양한 색이 포함된 막대입니다. 여기서 각 색은 특성을 나타내며 이러한 특성에 대해 색이 지정된 부분의 크기는 해당 특성이 지정된 사례의 비율을 나타냅니다.

  2. Pacific Cluster 및 Largest Cluster로 이름을 바꾼 클러스터에 대한 히스토그램을 비교합니다. 각 클러스터는 서로 다른 열에 나타납니다.

    둘 모두 단색처럼 보이지만 사실은 다른 색입니다.

  3. Region 행에서 색이 지정된 Largest Cluster 히스토그램 위에 마우스를 놓습니다.

    도구 설명에 각 지역의 실제 사례 비율을 보여 주는 값이 표시됩니다.

  4. Region 행에서 색이 지정된 Pacific Cluster 히스토그램을 마우스 오른쪽 단추로 클릭하고 드릴스루를 선택한 다음 모델 열만을 선택합니다.

  5. 스크롤 막대를 이동하여 이 클러스터의 모든 고객을 검토합니다.

    다시 세부 정보로 드릴스루하면 클러스터에 포함된 주문이 대부분 Pacific 지역 주문이지만 North America/Pacific 지역 주문도 일부 있음을 확인할 수 있습니다.

  6. 드릴스루 대화 상자를 닫습니다.

맨 위로 이동

클러스터 특징 탭

클러스터 특징 탭은 선택한 클러스터에 대한 특성 값의 중요도를 시각적으로 나타내는 막대를 표시하여 클러스터의 상태 전환을 요약합니다. 변수 열은 특정 값 또는 값 사이의 관계(전환) 중 선택된 클러스터 또는 모집단에 대해 중요하다고 모델에서 판별된 항목을 알려 줍니다. 열은 값 또는 전환에 대한 세부 정보를 제공하며 확률 열은 해당 특성 또는 전환의 가중치를 시각적으로 나타냅니다.

클러스터에 대해 중요한 특성을 보려면

  1. 클러스터 드롭다운 목록에서 Pacific Cluster를 선택합니다.

    목록이 업데이트되어 Pacific Cluster로 이름을 바꾼 클러스터의 특징이 표시됩니다. 이 클러스터에서 가장 중요한 특징은 Region입니다.

  2. Region의 행에 있는 음영 처리된 막대 위에 마우스를 놓습니다.

    값이 Pacific일 확률이 매우 높습니다. 이러한 값을 해석하는 방법은 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조를 참조하십시오.

  3. 클러스터의 특징 목록을 살펴보아 첫 번째 전환 행을 찾습니다.

  4. 전환 행은 변수 열에 전환이라는 텍스트를 포함하며 열에 일부 시퀀스 특성 값 조합을 포함합니다. 시퀀스는 시작 지점 및 누락 값도 포함할 수 있습니다.

    예를 들어 전환 값이 [시작] -> Road Tire Tube인 경우 이 클러스터의 고객이 시장 바구니에 Road Tire Tube를 먼저 담는 경우가 많음을 의미합니다. 이는 해당 제품이 고객이 먼저 찾는 인기 항목임을 나타내거나 단지 구매처에서 찾기 쉬운 항목임을 나타낼 수 있습니다.

  5. 목록을 스크롤하여 [시작] 또는 누락이 포함되지 않은 첫 번째 전환을 찾습니다.

    예를 들어 Touring Tire, Touring Tire Tube 전환을 찾은 경우 이 클러스터의 고객이 해당 항목을 이 순서대로 함께 구매하는 경우가 많음을 의미합니다.

  6. 이 전환에 대해 음영 처리된 막대 위에 마우스를 놓습니다.

    이 전환의 확률이 백분율로 표시됩니다.

  7. 클러스터 드롭다운 목록에서 **채우기(모두)**를 선택합니다.

    특성 목록이 업데이트되어 모델을 만드는 데 사용된 모든 주문의 특징이 표시됩니다. 이 마이닝 모델에서 여러 클러스터를 구별하는 가장 중요한 특징은 Region으로, 값은 North America입니다.

이러한 태스크를 검토하면 두 가지 사실을 알게 됩니다. 첫 번째는 의미 있는 조합 수를 얻으려면 많은 데이터가 필요하다는 것입니다. 예를 들어 확률이 가장 높은 시퀀스는 [시작] 또는 누락 상태를 포함할 가능성이 높습니다.

두 번째는 클러스터링에 대한 Region 특성의 영향이 커 시퀀스 그룹을 확인하기가 더 어려워진다는 것입니다. 이에 따라 시퀀스만 사용하며 지역 또는 수입에 대한 열을 포함하지 않는 다른 모델을 만들기로 결정합니다.

맨 위로 이동

클러스터 판별 탭

클러스터 판별 탭을 사용하면 두 클러스터를 비교하여 한 클러스터와 다른 클러스터를 구별하는 특성을 확인할 수 있습니다. 이 탭에는 변수, , 클러스터 1클러스터 2의 네 열이 있습니다. 임의의 클러스터를 선택하여 클러스터 1클러스터 2로 사용할 수 있습니다.

변수 열은 특성의 이름을 알려 줍니다. 이 이름은 열 이름이거나 열 이름과 전환이라는 단어가 조합된 것일 수 있습니다. 열은 특성 또는 전환의 정확한 값을 보여 줍니다. 클러스터 1클러스터 2의 열에 있는 음영 처리된 막대는 비교하는 클러스터에 있는 특성의 강도를 나타냅니다. 막대가 길수록 클러스터가 해당 특성이 지정된 사례를 포함할 가능성이 높아집니다.

클러스터 판별 탭을 사용하여 두 클러스터를 비교하려면

  1. 클러스터 판별 탭에서 클러스터 1에 대해 Pacific Cluster를 선택합니다.

    기본적으로 클러스터 2에 대한 선택 항목이 비 - PacificCluster로 변경됩니다.

    Pacific Cluster와 다른 모든 사례를 구별하는 가장 중요한 특성은 지역입니다. Region은 클러스터링에 대해 영향이 큰 특성이어서 다른 특성을 모호하게 만듭니다. 이러한 영향을 방지하려면 보다 작은 여러 클러스터를 서로 비교해 보십시오. 이렇게 하면 특성 목록이 변경되어 모델 간에 더 많은 전환이 포함될 수 있습니다.

  2. 전환 열을 찾아 음영 처리된 막대 위에 마우스를 놓습니다.

    열의 항목에는 상태와 전환이 모두 포함될 수 있습니다. 각 항목의 음영은 판별 점수를 나타냅니다. 다양한 점수의 의미에 대한 자세한 내용은 시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오.

맨 위로 이동

상태 전환 탭

상태 전환 탭에서는 클러스터를 선택하여 해당 상태 전환을 탐색할 수 있습니다. 클러스터 드롭다운 목록에서 **채우기(모두)**를 선택하면 전체 마이닝 모델에 대한 상태 분포가 다이어그램에 표시됩니다.

그래프의 각 노드는 분석하려는 시퀀스의 상태 또는 가능한 값을 나타냅니다. 노드의 배경색은 해당 상태의 빈도를 나타냅니다. 일부 상태를 연결하는 선은 상태 간 전환을 나타냅니다. 슬라이더를 위나 아래로 이동하여 전환에 대한 확률 임계값을 변경할 수 있습니다. 일부 노드와 연결된 숫자는 해당 상태의 확률을 나타냅니다.

상태 전환 탭에서 관계를 탐색하려면

  1. 마이닝 모델 뷰어의 상태 전환 탭에 있는 클러스터 목록에서 Pacific Cluster를 선택합니다. 가장자리 레이블 표시 옵션이 선택되어 있는지 확인합니다.

    그래프가 업데이트되어 이 클러스터에서 가장 일반적인 전환이 표시됩니다.

  2. 선으로 다른 노드에 연결된 임의의 노드를 클릭합니다.

    그래프가 업데이트되고 관련 노드가 강조 표시됩니다. 선 옆의 숫자 값은 해당 전환의 확률을 나타냅니다.

  3. 슬라이더를 모든 링크로 올려 그래프에 포함되는 전환 수를 늘립니다.

  4. 클러스터에서 **채우기(모두)**를 선택합니다.

    다른 클러스터를 로드하면 그래프가 기본 표시 설정으로 다시 설정되어 슬라이더 컨트롤이 가운데 위치로 다시 설정됩니다.

  5. 그래프에서 가장 짙은 노드(Sport-100)를 클릭합니다.

    이 제품을 다른 제품에 연결하는 선이 없습니다.

  6. 슬라이더를 한 단계 올려 그래프에 포함되는 전환 수를 늘립니다. 아직은 모든 링크까지 올리지 않습니다.

    그래프가 업데이트되어 여러 전환이 더 추가되지만 Sport-100 모델을 포함하는 전환은 아직 없습니다.

  7. 슬라이더 컨트롤을 모든 링크까지 올립니다. Sport-100 노드가 선택되어 있지 않으면 선택합니다.

    그래프가 업데이트되어 Sport-100 제품을 포함한 많은 전환이 표시됩니다. 연결선에 있는 화살표의 방향을 통해 Sport-100 항목이 해당 쌍에서 첫 번째 항목으로 선택되었는지, 아니면 두 번째 항목으로 선택되었는지를 알 수 있습니다.

  8. Touring Tire에 대한 노드를 클릭하면 슬라이더 컨트롤이 다시 가운데 위치로 내려갑니다.

    처음에는 Touring Tire를 다른 제품에 연결하는 전환 선이 많지만 확률 임계값을 올리면 가능성이 낮은 전환이 그래프에서 제거되어 Touring Tire > Touring Tire Tube 전환만 남게 됩니다. 이 전환은 한 고객이 Touring Tire를 시장 바구니에 담을 경우 해당 고객이 다음에 Touring Tire Tube를 시장 바구니에 담을 확률이 매우 높음을 의미합니다.

맨 위로 이동

일반 콘텐츠 트리 뷰어

이 뷰어는 알고리즘이나 모델 유형에 관계없이 모든 모델에 사용할 수 있습니다. Microsoft일반 콘텐츠 트리 뷰어뷰어 드롭다운 목록에서 사용할 수 있습니다.

콘텐츠 트리는 마이닝 모델을 일련의 노드로 표현한 것입니다. 여기서 각 노드는 학습 데이터에 대해 얻은 지식을 나타냅니다. 노드에는 패턴, 일련의 규칙, 클러스터 또는 일부 특성을 공유하는 날짜 범위의 정의가 포함될 수 있습니다. 노드의 콘텐츠는 알고리즘 및 예측 가능한 특성에 따라 달라지지만 콘텐츠의 일반적인 표현은 동일합니다.

각 노드를 확장하여 세부 수준을 높이고 노드의 콘텐츠를 클립보드로 복사할 수 있습니다. 자세한 내용은 Microsoft 일반 콘텐츠 트리 뷰어에서 모델 정보 보기를 참조하십시오.

일반 콘텐츠 트리 뷰어를 사용하여 시퀀스 클러스터링 모델에 대한 세부 정보를 보려면

  1. 마이닝 모델 뷰어 탭에서 뷰어 목록을 클릭하고 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.

  2. 노드 캡션 창에서 Pacific Cluster (1)을 클릭합니다.

    이 노드의 이름에는 사용자가 클러스터에 할당한 이름과 기본 노드 ID가 모두 포함됩니다. 노드 ID를 사용하여 모델의 추가 세부 정보로 드릴다운할 수 있습니다.

  3. 클러스터에 대한 시퀀스 수준 1이라는 첫 번째 자식 노드를 확장합니다.

    클러스터에 대한 시퀀스 수준 노드에는 해당 클러스터에 포함된 상태 및 전환에 대한 세부 정보가 포함됩니다. NODE_DISTRIBUTION 열에서 사용 가능한 이러한 세부 정보를 통해 각 클러스터 또는 전체 모델에 대한 시퀀스 및 상태를 탐색할 수 있습니다.

  4. HTML 뷰어 창에서 계속 노드를 확장하여 세부 정보를 봅니다.

마이닝 모델 콘텐츠에 대한 자세한 내용 및 뷰어에서 세부 정보를 사용하는 방법은 시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하십시오.

맨 위로 이동