다음을 통해 공유


마이닝 구조 만들기(SQL Server 데이터 마이닝 추가 기능)

마이닝 구조 만들기 단추, 데이터 마이닝 리본 만들기

반드시 모델을 만들지 않고 분석에 사용되는 데이터 집합을 만들려는 경우 데이터 모델링 그룹에서 고급 옵션을 사용합니다. 이 옵션은 여러 가지 알고리즘을 시험해 보려는 경우 유용합니다.

마이닝 구조를 만든 후 구조에 모델 추가 마법사를 사용하여 해당 구조체를 기반으로 모델을 만듭니다. 데이터 마이닝 고급 쿼리 편집기 사용하여 새 모델을 만들 수도 있습니다.

Analysis Services에서 지원되지만 선형 회귀 또는 시퀀스 클러스터링 같은 마법사를 통해 사용할 수 없는 고급 알고리즘 중 하나를 사용하여 모델을 빌드하거나 사용자 지정 알고리즘을 사용하는 경우에도 이 옵션을 사용할 수 있습니다.

참고

마이닝 구조를 만들 때 모든 모델의 유효성을 검사하는 데 사용할 수 있는 임의로 선택된 테스트 데이터 집합을 설정할 수도 있습니다. 이렇게 하면 모델 정확도를 일반 데이터 집합과 손쉽게 비교할 수 있기 때문에 유용합니다. 학습 및 테스트 집합으로 데이터 분할 옵션을 선택하고 테스트를 위해 예약할 데이터의 적절한 비율을 지정합니다(일반적으로 약 30%).

마법사를 사용하여 마이닝 구조 만들기

  1. 데이터 마이닝 리본에서 고급을 클릭하고 구조 만들기를 선택합니다.

  2. 원본 데이터 선택 대화 상자에서 분석에 사용할 데이터가 포함된 Excel 범위, Excel 데이터 테이블 또는 외부 데이터 원본을 지정합니다.

    다음을 클릭합니다.

  3. 열 선택 대화 상자에서 선택한 데이터 원본에서 사용할 수 있는 열 목록을 검토합니다.

  4. 열 이름 오른쪽에 있는 화살표를 클릭하여 열 사용을 변경 하고 다음 값 중에서 선택합니다.

    • Key. 각 모델에는 적어도 하나의 키가 필요합니다.

    • 키 시간. 이 옵션은 예측 모델에만 사용할 수 있으며 예측 모델에서 이 옵션은 필수 옵션입니다.

    • 포함. 열이 마이닝 구조에서 사용 가능해야 하지만 키 열이 아님을 나타냅니다.

    • 사용하지 마세요. 열이 마이닝 구조에 포함되지 않도록 나타냅니다.

    모델을 작성할 때 항상 열을 무시할 수 있지만 이후에 열을 추가하려면 구조와 모델을 다시 처리해야 합니다.

  5. 찾아보기 (...) 단추를 클릭하여 콘텐츠 형식, 데이터 형식 및 모델링 플래그를 설정합니다.

    참고

    열에 숫자 데이터가 포함된 경우 항상 이 대화 상자를 열어 올바른 데이터 형식이 선택되었는지 확인해야 합니다. 입력 데이터가 숫자이더라도 연속 숫자 대신 범주 변수나 불연속 값으로 처리하려는 경우도 있습니다.

    예를 들어 우편 번호 열은 기본적으로 연속된 Long 데이터 형식으로 나열될 수 있지만 더 좋은 결과를 얻기 위해 이 열을 불연속 텍스트 값으로 처리하도록 지정할 수 있습니다.

    자세한 내용은 데이터 마이닝에 대한 데이터 선택에서 콘텐츠 형식에 대한 섹션을 참조하세요.

    확인 을 클릭하여 대화 상자를 닫습니다.

  6. 다음을 클릭합니다.

    사용 중인 데이터의 형식에 따라 이 단계를 수행한 후 마법사를 완료할 수 있습니다. 이 경우 마이닝 구조의 이름을 지정하려면 마침 페이지로 이동합니다.

    다른 모델의 경우 테스트 데이터 집합을 만드는 추가 옵션이 있습니다.

  7. 데이터를 학습 및 테스트 데이터 세트로 분할 대화 상자에서 데이터를 분할할 방법을 지정합니다. 기본적으로 30%의 데이터가 테스트에 사용됩니다.

    필요한 경우 테스트에 사용할 최대 행 수를 입력할 수 있습니다.

    다음을 클릭합니다.

  8. 마침 대화 상자에서 새 마이닝 구조의 이름과 설명을 입력합니다.

  9. Finish를 클릭합니다.

옵션 의견
원본 데이터 선택 대화 상자 Excel 테이블을 선택할 때 데이터에 이미 머리글이 있는지 여부를 나타내야 합니다. 이 작업을 생략하는 경우 데이터의 첫 번째 행이 열 이름으로 사용됩니다.

외부 데이터 원본 옵션을 사용하는 경우 Analysis Services 데이터 원본에 정의할 수 있는 모든 종류의 데이터를 사용할 수 있습니다. 그러나 새 데이터 원본을 만들기 위한 추가 기능의 대화 상자에는 Analysis Services에서 지원하는 전체 데이터 원본 범위가 포함되지 않으므로 Analysis Services 서버에 데이터 원본을 미리 만든 다음 추가 기능을 사용하여 연결하는 것이 좋습니다.
데이터 원본 쿼리 편집기 대화 상자 지정된 데이터 원본에 연결한 후 열을 추가하거나 사용자 지정 열을 생성하기 위해 사용자 지정 쿼리를 만들 수 있습니다.
데이터를 학습 및 테스트 집합으로 분할합니다. 학습 및 테스트 집합에 권장되는 값은 학습에 70%, 테스트에 30%입니다. 그러나 많은 데이터가 있는 경우 테스트할 최대 행 수를 지정할 수 있습니다.
마침 대화 상자 드릴스루 옵션은 일부 모델 유형에서 사용할 수 있으며 마이닝 구조에 세부 정보 열을 포함한 경우 매우 유용합니다. 예를 들어 클러스터링 모델을 만드는 경우 특정 클러스터에서 보다 쉽게 고객에게 연락하기 위해 분석이 아니라 드릴스루를 위한 이름 또는 전자 메일 주소 등의 세부 정보를 포함할 수 있습니다.

마이닝 구조 만들기 마법사에서 열 사용법 설정

마이닝 구조를 새로 만들 때 마이닝 구조에 포함할 데이터 원본 열과 해당 열의 사용법을 지정할 수 있습니다. 마이닝 구조는 여러 마이닝 모델을 지원할 수 있습니다.

Description
포함 분석이나 예측에 사용할 수 있는 데이터가 열에 포함되도록 지정합니다.
열에 처리에 필요한 트랜잭션 ID, 계열 ID 또는 다른 키를 포함되어 있음을 지정합니다.

모든 알고리즘에는 Key 열이 필요합니다. 그러나 단일 키만 허용하는 알고리즘이 있고 여러 키를 허용하는 알고리즘도 있습니다.

열에 키가 포함되어 있지만 처리에 필요하지 않은 경우 사용 안 을 선택합니다.
Key Time 시계열의 항목을 고유하게 식별하는 데 사용할 수 있는 날짜나 기타 숫자 값이 열에 포함되도록 지정합니다.
사용하지 마세요. 열을 무시하도록 지정합니다. 해당 열의 열 데이터는 처리되지 않습니다.

모델을 올바르게 처리하려면 각 행을 고유하게 식별하는 키 열, 예측 가능한 모델을 만드는 경우 예측을 만들 대상 열, 그리고 대상 열을 예측하는 관계를 만들기 위해 입력 열로 사용할 열을 알고리즘에서 파악해야 합니다.

  • 사용하지 않음으로 지정된 열은 마이닝 구조에 없습니다.

    불필요한 열이나 잘못된 값이 포함된 열을 추가할 경우 분석 결과에 부정적인 영향을 줄 수 있으므로 반드시 관련 열만 포함해야 합니다. 그러나 마이닝 구조에 사용되지 않는 열은 쿼리할 수 없습니다.

  • Include 형식으로 지정된 열은 마이닝 구조에 포함되며 나중에 마이닝 모델의 분석 또는 예측에 사용할 수 있습니다.

    사용해야 할지 여부를 확실히 알 수 없는 열은 항상 마이닝 구조에 포함한 다음 해당 열을 사용하지 않는 마이닝 모델을 만듭니다. 예를 들어 나중에 참조할 수 있도록 데이터에 전화 번호 열을 포함하되 전화 번호를 무시하는 클러스터링 모델을 만들 수 있습니다. 클러스터를 만든 후에는 특정 클러스터에 속하는 사람의 전화 번호를 반환하는 쿼리를 만들 수 있습니다.

  • 모든 알고리즘에는 열이 필요합니다. Key 열의 값은 고유해야 합니다. 키 시간 열은 예측 또는 시계열 모델에만 필요합니다. .

요구 사항

데이터 마이닝 구조를 만들려면 Analysis Services의 instance 연결해야 합니다. 임시 구조를 사용하는 경우에도 연결이 필요합니다. 연결을 만들거나 변경하는 방법에 대한 자세한 내용은 원본 데이터에 연결(Excel용 데이터 마이닝 클라이언트)을 참조하세요.

참고 항목

데이터 마이닝 모델 만들기