데이터 변환 - 샘플 및 분할
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
이 문서에서는 데이터를 분할하거나 샘플링하는 데 사용할 수 있는 Machine Learning Studio(클래식)의 모듈에 대해 설명합니다.
데이터 세트 분할 및 샘플링은 기계 학습에서 중요한 작업입니다. 예를 들어 홀드아웃 데이터 세트에서 모델을 평가하는 데 도움이 되도록 데이터를 학습 및 테스트 집합으로 나누는 것이 일반적입니다. 또한 학습 데이터에 클래스의 공정한 분포를 보장하기 위해 빅 데이터 시대에 샘플링이 점점 더 중요해지고 있습니다. 샘플링은 또한 필요한 것보다 더 많은 데이터를 처리하지 않도록 하는 데 도움이 됩니다.
Machine Learning Studio(클래식) 모듈을 사용하여 데이터 세트를 분할하거나 샘플링하는 방법을 사용자 지정할 수 있습니다.
- 데이터의 특성에 따라 학습 데이터를 필터링합니다.
- 계층화된 샘플링을 수행하여 클래스 변수를 n 개수의 그룹으로 균등하게 나눕니다.
- 사용자 지정 비율을 사용하여 원본 데이터를 학습 및 테스트 데이터 집합으로 나눕니다.
- 데이터에 정규식을 적용하여 잘못된 값을 필터링합니다.
올바른 작업 선택: 분할 또는 샘플링
Machine Learning Studio(클래식)는 작업을 캡슐화하는 두 가지 모듈을 제공합니다. 모듈은 비슷하게 들리지만 용도가 다르며 보완 기능을 제공합니다. 실험에서 두 모듈을 모두 사용하여 적절한 양과 적절한 데이터 조합을 얻을 수 있습니다.
다음으로 각 모듈이 일반적으로 사용되는 작업을 확인하여 분할 데이터 모듈 과 파티션 및 샘플 모듈을 비교합니다.
데이터 분할 모듈 사용
- 데이터를 두 그룹으로 나눕니다. 데이터 분할 모듈을 사용합니다. 모듈은 데이터의 정확히 두 분할을 생성합니다. 데이터가 분할되는 조건과 각 하위 집합에 넣을 데이터의 비율을 지정할 수 있습니다. 분할 데이터는 항상 조건을 충족하지 않는 데이터의 하위 집합을 저장합니다.
- 데이터 세트에 레이블 값을 동일하게 할당합니다. 지정된 열에서 계층화하는 옵션은 두 모듈에서 모두 지원됩니다. 그러나 두 데이터 세트를 만들고 레이블 열에 주로 관심이 있는 경우 데이터 분할 모듈은 빠른 솔루션입니다.
데이터 분할 모듈 사용 예제
CSV 파일에서 매우 큰 데이터 세트를 가져온 경우를 가정해 보겠습니다. 데이터 세트에는 고객 인구 통계가 포함됩니다. 다른 국가의 고객을 위해 다양한 모델을 만들려고 하므로 열 값을 Country-Region
사용하여 데이터를 분할하기로 결정합니다. 이 작업을 완료하기 위해 수행하는 단계는 다음과 같습니다.
- 데이터 분할 모듈을 추가한 다음 필드에 식을 지정합니다
Country-Region
. 나머지 데이터는 보조 출력에서 사용할 수 있습니다. - 데이터 분할 모듈의 다른 인스턴스를 추가합니다.
- 1단계와 2단계를 반복합니다. 각 반복에 대해 식에 다른 국가를 지정합니다.
데이터 분할 모듈은 숫자 데이터에 대해 정규식, 텍스트 데이터 및 상대 식을 모두 지원합니다.
데이터 분할 모듈은 특수 데이터 세트를 나누는 데 사용할 수 있는 정교한 기능도 제공합니다. 이 기능을 사용하여 권장 사항 모델을 만들고 예측을 생성합니다.
파티션 및 샘플 모듈 사용
- 샘플링 항상 파티션 및 샘플 모듈을 사용합니다. 모듈은 계층화된 샘플링에 대한 몇 가지 옵션을 포함하여 여러 사용자 지정 가능한 샘플링 방법을 제공합니다.
- 여러 그룹에 사례를 할당합니다. 파티션 및 샘플 모듈에서 접기 또는 접기 선택 옵션에 할당을 사용합니다.
- 데이터의 하위 집합만 반환합니다. 파티션 및 샘플 모듈을 사용합니다. 모듈은 기본 출력에 대해 지정된 하위 집합을 제공합니다. 나머지 데이터는 보조 출력에서 사용할 수 있습니다.
- 데이터 세트의 상위 2,000개 행만 가져옵니다. 파티션 및 샘플 모듈을 사용합니다. 헤드 옵션을 선택합니다. 이는 새 실험을 테스트하고 워크플로의 짧은 평가판을 실행하려는 경우에 특히 유용합니다.
파티션 및 샘플 모듈 사용 예제
파티션 및 샘플 모듈은 두 파티션뿐만 아니라 데이터의 여러 파티션을 생성할 수 있습니다. 동시에 다양한 샘플링 작업을 수행할 수 있습니다.
예를 들어 대상 특성의 분포가 원본 데이터와 동일한지 확인하면서 데이터의 10%만 가져와야 한다고 가정합니다. 이 작업을 완료하기 위해 수행하는 단계는 다음과 같습니다.
- 파티션 및 샘플 모듈을 추가합니다.
- 샘플링 모드를 선택한 다음 10%를 지정합니다.
- 계층화된 샘플링 옵션을 선택한 다음 대상 특성이 포함된 열을 선택합니다.
모든 데이터를 유지할 필요가 없는 경우 파티션 및 샘플 모듈을 사용합니다. 나머지 데이터는 여전히 작업 영역에 있지만 실험의 일부로 추가로 처리할 필요는 없습니다.
관련 작업
- 샘플에서 드문 사례 수를 늘리거나 대상 값에 대한 사례의 균형을 다시 조정합니다. SMOTE 모듈을 사용합니다.
- 데이터 공간을 가장 잘 나타내는 기능 조합을 찾아 차원 감소를 수행합니다. 주 구성 요소 분석 모듈을 사용합니다.
- 기능 및 개수 분석을 기반으로 압축 기능 만들기: Counts 모듈에서 Learning 사용합니다.
- 지정된 열만 사용하여 뷰 또는 프로젝션을 만듭니다. 데이터 세트의 열 제거 또는 숨기기: 데이터 세트에서 열 선택 및 SQL 변환 모듈 적용을 사용합니다.
- 더 복잡한 데이터 필터, 그룹화 또는 변환 적용: R 스크립트 실행 및 SQL 변환 모듈 적용
모듈 목록
이 범주에 포함된 모듈은 다음과 같습니다.