데이터 탐색 및 지우기
데이터 준비는 데이터 정리보다 훨씬 많이 수행됩니다. 데이터가 준비되는 방식은 결과가 결국 해석되는 방식에도 영향을 미칩니다. 데이터 준비는 다음과 같은 태스크로 이루어집니다.
데이터 분포 탐색 및 확인
잘못된 레코드 정리 및 데이터 마이닝 열 선택
적절하게 Null 처리
다양한 시간 단위를 기준으로 값 범주화 또는 값 집계
결과의 사용 편의성을 높이기 위해 레이블 추가
분석에 필요한 경우 데이터 형식 변환 또는 값 범주화
데이터 모델링을 접하는 경우 관련 항목인 데이터 마이닝 준비의 검사 목록을 읽는 것이 좋습니다.
데이터 준비 도구
Office용 데이터 마이닝 추가 기능에는 다음과 같은 데이터 정리 및 준비 도구가 포함됩니다.
데이터 탐색
데이터 탐색 마법사를 사용하여 이러한 데이터 준비 작업을 수행합니다.
분석하기 전에 데이터를 미리 보고 수정이 필요한 오류를 식별합니다.
데이터의 균형과 필요한 정리 태스크를 이해하는 데 유용한 통계 정보를 수집합니다.
분석에 유용한 열을 식별하고 데이터 모델링 단계를 계획합니다.
데이터 탐색(SQL Server 데이터 마이닝 추가 기능).
이상값 검색 및 처리
이상값 마법사는 데이터의 값 분포를 그래프로 표시하고 극단적인 값을 제거하는 데 도움이 됩니다. 다음 데이터 준비 작업에 이상값 도구를 사용합니다.
데이터의 패턴에 따라 개별 값을 신뢰할 수 있는지 확인합니다.
비정상적인 값을 검토한 후 삭제 또는 교체합니다.
모델을 특정 범위의 값으로 정의 예를 들어, 특정 저장소에 이상값이 있다는 것을 아는 경우 이 값을 제거하고 다른 저장소를 보다 잘 예측하는 모델을 가져올 수 있습니다.
이상값(SQL Server 데이터 마이닝 추가 기능).
데이터 레이블 재지정 및 범주화
레이블 다시 지정 마법사는 데이터의 레이블을 변경할 수 있도록 데이터를 값별로 그룹화합니다. 다음 데이터 준비 작업에 레이블 재지정 도구를 사용합니다.
설문 조사 결과에 사용된 숫자 코드를 해당 숫자 코드가 의미하는 바에 대한 텍스트 설명으로 변경합니다.
예를 들어 성별 = 1과 같은 데이터 항목을 성별 = 여성으로 바꿀 수 있습니다.
숫자 범위를 나타내는 그룹을 만들어 데이터를 범주화합니다.
예를 들어 숫자의 소득 열을 소득 - 보통 및 소득 - 높음과 같은 레이블로 바꿀 수 있습니다.
고유 값들을 범주별로 분류합니다.
예를 들어 개별 제품의 수가 너무 많아 구매 간 패턴을 검색하기 어려운 경우 더 광범위한 범주에 제품을 할당할 수 있습니다.
레이블 재지정(SQL Server 데이터 마이닝 추가 기능)
데이터 지우기
데이터 정리는 다음과 같은 다양한 작업을 포함하며 대부분 추가 기능에서 지원합니다.
Null 값을 식별하고 이러한 값을 실제 값으로 변경할지 또는
Missing
값으로 처리할지 여부를 결정합니다.누락된 값을 탐색하여 제거하거나 중간값, Null 또는 기타 값 등의 적절한 값으로 돌립니다.
데이터 탐색(SQL Server 데이터 마이닝 추가 기능)
레이블 재지정(SQL Server 데이터 마이닝 추가 기능)
데이터 샘플링
데이터 샘플링 마법사에서 모델 학습 및 테스트에 사용되는 균형 잡힌 데이터 집합을 만드는 방법은 두 가지입니다.
무작위 샘플링. 학습 또는 테스트에 사용하기 위해 큰 데이터 집합에서 대표성을 지닌 데이터 집합을 추출하려면 이 옵션을 사용합니다. 데이터 마이닝 추가 기능은 계층화된 샘플링 을 사용하여 샘플링된 각 변수에 대해 균형 잡힌 값 집합을 가져오도록 합니다.
과다 샘플링. 대상 결과에 사용하려는 것보다 데이터의 양이 적고 해당 데이터의 가중치를 높게 잡아야 하는 경우 이 옵션을 사용합니다. 예를 들어 부정 행위가 거의 발생하지 않을 수 있지만 부정 행위와 관련된 사례를 과다 샘플링하여 모델링에 충분한 데이터를 구할 수 있습니다.
샘플 데이터(SQL Server 데이터 마이닝 추가 기능).
참고 항목
데이터 마이닝 모델 만들기
모델 유효성 검사 및 예측용 모델 사용(Excel용 데이터 마이닝 추가 기능)
마이닝 모델 배포 및 확장(Excel용 데이터 마이닝 추가 기능)