다음을 통해 공유


의사 결정 트리 모델 찾아보기

찾아보기를 사용하여 분류 모델을 열면 Analysis Services의 Microsoft 의사 결정 트리 뷰어와 유사한 대화형 의사 결정 트리 뷰어에 모델이 표시됩니다. 뷰어에는 데이터 그룹을 구별하는 조건을 강조 표시하는 그래프로 분류 결과가 표시됩니다. 트리의 개별 하위 집합으로 드릴다운하고 기본 데이터를 검색할 수도 있습니다.

모델 탐색

의사 결정 트리 알고리즘을 기반으로 하는 모델에는 검토할 만한 중요한 정보가 많습니다. 찾아보기 창에는 그래프를 사용하여 패턴을 학습하고 결과를 예측하는 데 도움이 되는 다음 탭과 창이 포함되어 있습니다.

의사 결정 트리 모델을 테스트하려면 샘플 데이터 통합 문서의 학습 데이터나 원본 데이터 탭에 있는 샘플 데이터를 사용하고, Bike Buyer를 예측 가능한 특성으로 사용하여 의사 결정 트리 모델을 작성합니다.

의사 결정 트리

이 보기에서 결과로 이어지는 요인을 이해하고 알아볼 수 있습니다.

의사 결정 트리 그래프는 다음과 같이 왼쪽에서 오른쪽으로 읽을 수 있습니다.

  • 노드라고 하는 사각형에는 데이터의 하위 집합이 포함됩니다. 노드의 레이블로 해당 하위 집합의 뚜렷한 특징을 알 수 있습니다.

  • 모두라는 레이블이 지정된 맨 왼쪽 노드는 전체 데이터 집합을 나타냅니다. 모든 후속 노드는 데이터의 하위 집합을 나타냅니다.

  • 의사 결정 트리에는 여러 분할 또는 특성에 따라 데이터가 여러 집합으로 분산되는 위치가 포함됩니다.

    예를 들어, 샘플 모델의 첫 번째 분할은 데이터 세트을 나이에 따라 세 그룹으로 나눕니다.

  • 모든 노드 바로 뒤의 분할은 이 데이터 세트를 나누는 기본 조건을 표시하기 때문에 가장 중요합니다.

    추가 분할은 오른쪽에 나타납니다. 따라서 트리의 여러 세그먼트를 분석하여 구매 동작에 가장 큰 영향을 끼친 특성을 파악할 수 있습니다.

연결 모델에 대한 종속성 네트워크 그래프 연결 모델에 대한

이 정보를 사용하여 구매 장려가 필요한 고객에 마케팅 캠페인을 집중할 수 있습니다.

의사 결정 트리 탐색
  1. 모두 노드를 클릭하고 마이닝 범례를 확인합니다.

    결과 분석과 학습 데이터 집합의 정확한 사례 수가 표시됩니다.

    노드를 마우스로 가리켜서 동일한 정보를 도구 설명으로 볼 수 있습니다.

  2. 각 노드 옆의 더하기 및 빼기 기호를 클릭하여 트리를 확장하거나 축소할 수 있습니다.

    수준 표시 슬라이더를 사용하여 트리를 확장하거나 축소할 수도 있습니다.

  3. 일부 노드는 다른 노드보다 어둡습니다.

    기본적으로 Population 은 음영 변수로 사용됩니다. 즉, 색의 강도가 가장 많이 지원되는 노드를 보여 줍니다.

    따라서 가장 왼쪽의 노드는 전체 데이터 세트을 포함하기 때문에 가장 어둡습니다.

  4. Background 값을 모든 사례에서 예로 변경합니다.

    구매자를 강조하기 위해 의사 결정 트리 그래프를 변경하는 구매자

  5. 이제 색의 강도로 각 노드에서 얼마나 많은 고객이 자전거를 구입했는지 알 수 있습니다.

    각 노드 내에 색이 지정된 막대가 있습니다. 이 막대는 이 데이터 하위 집합 내의 결과 분포를 보여 주는 히스토그램입니다. 예를 들어 샘플 Bike Buyer 의사 결정 트리에서 색이 지정된 막대는 자전거를 구입한 고객의 비율(예 값)과 그렇지 않은 고객(값 없음)을 표시합니다. 정확한 값을 얻으려면 노드를 클릭하고 마이닝 범례를 볼 수 있습니다.

  6. 그래프를 보고 각 데이터 하위 집합이 어떻게 더 작은 그룹으로 나뉘었는지와 결과를 예측하는 데 어느 특성이 가장 유용한지 알 수 있습니다.

    음영의 강도만으로 관심 있는 몇몇 그룹에 초점을 맞추고 비교를 위한 그룹별 세부 정보를 얻을 수 있습니다. 예를 들어, 다음 그룹은 자전거를 구입할 확률이 매우 높습니다.

    • 나이 >= 32 및 < 53 및 연간 소득 >= 26000 및 어린이 = 0

      총 사례: 1150건

      자전거 구매자 확률: 18%

    • 연령 >= 32세 및 < 53세 및 연간 소득 >= 26000명 및 자녀 없음 = 0 및 결혼 상태 = '단일'

      총 사례: 402건

      자전거 구매자 확률: 16%

  7. Background 값을 에서 아니요로 변경하고 그래프가 어떻게 변경되는지 확인합니다.

    연결 모델에 대한 종속성 네트워크 그래프 연결 모델에 대한

  • 데이터를 여러 계열로 나눌 수 있는 경우 모델링할 데이터 집합마다 다른 모델이 작성됩니다.

  • 샘플 데이터 모델에는 예측 가능한 결과인 Bike Buyer가 하나뿐이지만 고객이 서비스 플랜을 구매했는지 여부와 이를 예측하려고 했는지에 대한 정보가 있다고 가정합니다. 이 경우 별도의 열에 해당 정보를 가지고 있으며 모델에 두 개의 예측 가능한 특성을 포함합니다.

    의사 결정 트리 창의 왼쪽 위 모서리에 있는 히스토그램 옵션을 클릭하여 트리의 히스토그램에 표시할 수 있는 최대 상태 수를 변경합니다. 이 옵션은 예측 가능한 특성에 많은 상태가 있는 경우에 유용합니다. 상태는 왼쪽에서 오른쪽으로 히스토그램에 인기도 순서로 나타납니다.

  • 의사 결정 트리 탭의 옵션을 사용하여 트리가 표시되는 방식에 영향을 주거나, 확대/축소하거나, 창에 맞게 그래프 크기를 조정할 수도 있습니다.

  • 기본 확장 을 사용하여 모델의 모든 트리에 표시되는 기본 수준 개수를 설정할 수 있습니다.

  • 긴 이름 표시를 선택하여 데이터 원본을 포함하여 특성의 전체 이름을 표시합니다. 각 사례에 대한 속성과 다른 데이터 원본에서 사례를 얻은 경우가 아니라면 짧은 이름과 긴 이름은 동일합니다.

맨 위로 돌아가기

종속성 네트워크

종속성 네트워크 보기는 입력 특성과 모델의 예측 가능한 특성 간의 연결을 표시합니다.

  1. 뷰어 왼쪽에서 슬라이더를 클릭해서 끕니다.

    맨 위에 모든 연결이 표시됩니다. 슬라이더를 아래로 끌면 가장 강력한 링크만 뷰어에 표시됩니다.

  2. 이제 Bike Buyer 노드를 클릭합니다.

    의사 결정 트리에 대한 종속성 네트워크 보기 의사 결정 트리

    노드를 선택하면 뷰어는 해당 노드와 관련된 종속성을 강조 표시합니다. 이 사례에서 뷰어는 결과 예측에 도움이 되도록 각 노드를 강조 표시합니다.

  3. 뷰어에 많은 노드가 포함된 경우 노드 찾기 단추를 사용하여 특정 노드를 검색 할 수 있습니다. 노드 찾기 를 클릭하면 노드 찾기 대화 상자가 열리며 여기서 필터를 사용하여 특정 노드를 검색하고 선택할 수 있습니다.

  4. 뷰어의 아래쪽에 있는 범례는 색 코드를 그래프에 있는 종속성 유형에 연결합니다. 예를 들어 예측 가능한 노드를 선택하면 예측 가능한 노드는 옥색으로 표시되며 선택한 노드를 예측하는 노드는 주황색으로 표시됩니다.

맨 위로 돌아가기

기본 데이터로 드릴스루

여러 유형의 모델은 모델에서 기본 사례 데이터로 드릴스루 하는 기능을 지원합니다. 이는 특정 세그먼트의 고객에게 연락하거나 추가 분석을 위해 데이터를 추출하려는 경우 유용합니다.

사례 데이터 가져오기
  1. 원하는 데이터가 포함된 트리의 노드를 마우스 오른쪽 단추로 클릭하고 다음 옵션 중 하나를 선택합니다.

    • 드릴스루 모델. 이 옵션은 선택한 노드에 속하는 사례를 가져와서 Excel의 표로 저장합니다. 모델 작성에 실제로 사용된 데이터 열만 가져옵니다.

    • 구조체 열을 드릴스루합니다. 이 옵션은 선택한 노드에 속하는 사례를 가져와서 Excel의 표로 저장합니다. 모델에서 열이 사용되지 않았더라도 기본 데이터에서 사용할 수 있는 모든 정보를 얻을 수 있습니다. 고객 주소와 우편 번호를 분석에 필요 없어서 제외했지만 구조에 남겨둔 경우를 예로 들 수 있습니다.

    Excel로 돌아가서 데이터를 봅니다. 찾아보기 뷰어에서 쿼리를 실행하고, 데이터를 새 워크시트에 표로 저장하고, 결과의 레이블을 지정합니다.

    드릴스루 결과가 Excel에 저장되고.

참고 항목

Excel에서 모델 찾아보기(SQL Server 데이터 마이닝 추가 기능)