데이터 마이닝 시작하기(Excel용 데이터 마이닝 추가 기능)
데이터 마이닝은 데이터에서 의미 있는 패턴을 발견하기 위한 프로세스입니다. 데이터 마이닝은 기존의 BI를 통해 데이터를 탐색 및 파악하는 프로세스를 자연스럽게 보완합니다. 컴퓨터 알고리즘을 사용해서 매우 많은 양의 데이터를 처리하고 숨겨져 있는 패턴 및 추세를 검색할 수 있습니다.
데이터 마이닝을 수행하려면 "내 고객은 누구인가요?" 또는 "어떤 제품을 구입했습니까?"와 같은 특정 질문과 관련된 데이터를 수집한 다음 알고리즘을 적용하여 데이터에서 통계 상관 관계를 찾습니다. 분석을 통해 발견된 패턴과 추세는 마이닝 모델로 저장됩니다. 그런 후 다음과 같이 비즈니스 시나리오에서 새로운 데이터에 마이닝 모델을 적용할 수 있습니다.
이전의 추세를 사용해서 다음 분기에 대한 매출, 재고 요구 사항 또는 고객 만족도를 예측합니다.
현재 고객에 대한 지식을 적용해서 새로운 고객을 프로파일링하고 새로운 제품 또는 기회를 제안합니다.
이전 이벤트 사이의 상관 관계를 찾아서 서버 오류 또는 가동 중지 시간을 예측합니다.
고객이 함께 주문한 제품을 분석하고 이 정보를 사용해서 묶음 상품을 제안하거나 제품 배치를 계획합니다.
분석 방법 선택은 목표에 따라 달라집니다. 데이터 마이닝 추가 기능은 다음과 같은 유형의 분석을 지원합니다.
감독 및 자율 학습
클러스터링(세그먼트화)
요인 분석(Bayesian 및 신경망 사용)
시계열 분석
협회 분석, 권장 사항 및 시장 바구니 분석
이진 결과 채점
선형 회귀
또한 추가 기능은 데이터 선택, 탐색 및 데이터 정리와 같은 데이터 준비 단계에 도움이 됩니다.
목표 정의
시작하기 전에 답을 구하고자 하는 질문을 고려합니다. 탐색은 그 자체로도 통찰을 얻는 데 효과적이지만 발견한 결과를 새로운 데이터에 적용하고 싶은 경우, 해당 모델이 생성할 것이 무엇인지 그리고 해당 모델을 통해 달성되는 목표를 어떻게 측정할 수 있는지 명확하게 규정할 수 있어야 합니다.
예를 들어 "신규 고객 찾기"를 목표로 하는 것이 아니라 "제품을 구매할 가능성이 있는 고객의 인구 통계를 65% 이상 식별"과 같이 보다 구체적인 목표를 명확히 합니다.
데이터 세트에는 학습 및 예측에 사용할 수 있는 하나 이상의 "결과" 특성이 포함되어야 합니다. 그러한 특성이 없으면 일부 학습 데이터를 수동으로 분류하거나 다른 열을 사용해서 결과에 대한 대안 특성을 만들 수 있습니다.
예를 들어 "최상의 잠재 고객"을 예측하려면 데이터 마이닝이 제공하는 예제에서 학습할 수 있도록 일부 비즈니스 규칙을 미리 적용하여 기존 고객에게 레이블을 지정해야 합니다.
시간에 따라 변경되는 값을 사용할 경우, 미래 추세를 예측하려면 필요한 결과의 세분성을 고려해야 합니다. 일별, 월별 또는 연도별 예측을 원합니까? 분석할 데이터는 예측과 동일한 단위를 사용해서 처리되어야 합니다.
주기적 패턴을 사용하면 일일 데이터로 좋은 결과를 얻지 못하거나 다른 시간 조각을 시도하거나 요일, 월 또는 휴일을 사용해 보세요.
마법사를 사용해서 데이터에서 새로운 상관 관계를 찾기 전에, 데이터를 다시 한 번 살펴보고 데이터 세트에 어떤 기존 관계가 존재할 수 있는지 확인합니다. 혼동되는 변수가 있습니까? 중복 항목이나 프록시가 있습니까?
모델의 성공을 평가할 메트릭은 무엇인가요? 모델이 "충분히 좋다"는 것을 어떻게 알 수 있습니까?
데이터 마이닝 모델을 사용하여 예측을 만들 것입니까 아니면 주목할 만한 패턴 및 관계만 찾을 것입니까?
데이터 탐색 및 모델 탐색
이미 데이터와 영역을 완전히 파악했을 수 있습니다. 그렇더라도 모델링을 염두에 두고 충분한 시간을 들여 데이터를 프로파일링해야 합니다.
값 분포를 충분히 확인하고 누락된 값이나 자리 표시자와 같은 잠재적인 문제가 있는지 확인합니다.
너무 크거나 복잡한 데이터 집합에 대해 데이터 마이닝을 수행하여 다른 방법으로 분석할 수 없는 경우 샘플링 또는 데이터 감소를 고려합니다.
데이터가 어떻게 배포되어 있습니까?
열이 서로 어떻게 연결되어 있습니까? 테이블이 여러 개인 경우 테이블이 서로 어떻게 연결되어 있습니까?
값이 누락되었습니까? 변환하거나 전처리해야 하는 값이 있습니까?
데이터가 대부분 텍스트나 숫자입니까 아니면 섞여 있습니까?
목표 결과에 대한 분석을 뒷받침할 만큼 데이터가 충분합니까? 제품 간의 연결을 분석하는 경우 훨씬 더 많은 데이터가 필요할 수도 있습니다. 이진 결과를 예측하려는 경우 데이터 세트에 균형이 있으면 훨씬 적은 데이터로 결과를 구할 수 있습니다.
모델이 완료되었으면 충분한 시간을 들여 결과를 검토하고 데이터를 수정하거나 더 나은 결과를 가져올 수 있는 방법이 있는지 확인합니다. 첫 번째 모델로 모든 답변을 제공할 수 있을 확률은 극히 희박합니다. 데이터 마이닝은 일반적으로 반복된 프로세스입니다.
데이터를 여러 가지 방법으로 범주화하거나 새 열을 추가하려고 할 때 문서 모델 마법사를 사용하여 각 모델의 메타데이터 및 결과의 스냅샷 캡처해야 합니다. 기록은 탐색을 진행하는 데 유용한 도구로 활용될 수 있습니다.
모델의 유효성 검사
각 마법사 또는 도구를 실행할 때마다 해당 알고리즘은 데이터 콘텐츠를 분석하고 통계적으로 유효한 패턴이 존재하는지 여부를 확인합니다. 알고리즘이 유효한 패턴을 찾을 수 없는 경우 오류 메시지가 표시됩니다. 그러나 모델을 성공적으로 만든 경우에도 모델을 테스트하여 가정 유효성을 검사하는지 확인해야 합니다. 정확도 차트(SQL Server 데이터 마이닝 추가 기능) 또는 교차 유효성 검사(SQL Server 데이터 마이닝 추가 기능)와 같은 도구를 사용하여 모델 품질의 통계 측정값을 생성할 수 있습니다.
첫 번째 모델의 결과를 평가할 때는 다음과 같은 질문을 스스로 해볼 수 있습니다.
어떤 종류의 패턴이 발견되었습니까? 확률 및 지원 값은 무엇인가?
추세에 대한 추측이 맞았습니까? 아니면 놀라운 상관 관계가 있습니까?
데이터를 충분히 수집했는가? 데이터를 묶음으로써 더 명확한 패턴을 얻을 수 있는가?
데이터 집합이 균형적인가? 교차 유효성 검사를 통해 데이터의 대표성을 테스트할 수 있습니다.
Excel용 데이터 마이닝 클라이언트(SQL Server 데이터 마이닝 추가 기능)
탐색 및 수정
모델이 유효한 것으로 파악되면 이 모델을 예측, 제안, 통찰 얻기 또는 비즈니스 전략 계획에 활용할 수 있습니다.
Excel용 데이터 마이닝 클라이언트에서 데이터 마이닝 브라우저를 사용해서 모델을 탐색하고 모델과 상호 작용합니다.
Excel을 사용해서 결과를 다시 정렬하고 필터링합니다.
Visio를 사용해서 프레젠테이션을 작성하고 데이터에서 발견된 관계를 강조 표시합니다.
대개 분석의 첫 번째 결과를 보면 분석을 개선할 여러 가지 방법이나 새 데이터를 구해야 한다는 사실을 알게 됩니다. Excel용 데이터 마이닝 추가 기능을 사용하여 만든 모델을 Analysis Service 인스턴스에 저장할 수 있으므로 간편하게 새 데이터로 모델을 업데이트할 수 있으며 성공적인 모델을 수정하여 재사용할 수 있습니다.
데이터 마이닝 모델의 중요한 용도는 예측 및 권장 사항을 만드는 것입니다. Excel용 데이터 마이닝 추가 기능에는 발견한 정보를 실행 가능한 결과로 바꾸기 위해 복잡한 예측 쿼리도 쉽게 생성할 수 있는 도구가 포함되어 있습니다. 이러한 도구는 모두 Excel과 완벽하게 통합되어 있습니다.
모델 유효성 검사 및 예측용 모델 사용(Excel용 데이터 마이닝 추가 기능)