데이터 분할
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
데이터 집합의 행을 두 개의 집합으로 분할
범주: 데이터 변환/샘플 및 분할
모듈 개요
이 항목에서는 Machine Learning Studio(클래식)에서 데이터 분할 모듈을 사용하여 데이터 세트를 두 개의 고유 집합으로 나누는 방법을 설명합니다.
이 모듈은 학습 및 테스트 집합으로 데이터를 구분해야 하는 경우에 특히 유용합니다. 데이터를 나누는 방식도 사용자 지정할 수 있습니다. 일부 옵션은 데이터의 임의화를 지원합니다. 다른 데이터 형식은 특정 데이터 형식 또는 모델 형식에 맞게 조정됩니다.
데이터 분할을 구성하는 방법
팁
분할 모드를 선택하기 전에 모든 옵션을 읽어 필요한 분할 유형을 결정합니다. 분할 모드를 변경하면 다른 모든 옵션을 다시 설정할 수 있습니다.
스튜디오에서 실험에 데이터 분할 모듈을 추가합니다. 이 모듈은 샘플 및 분할 범주의 데이터 변환에서 찾을 수 있습니다.
분할 모드: 데이터 형식 및 분할 방법에 따라 다음 모드 중 하나를 선택합니다. 분할 모드마다 옵션이 다릅니다. 자세한 지침 및 예제를 보려면 다음 항목을 클릭합니다.
행 분할: 데이터를 두 부분으로 나누려면 이 옵션을 사용합니다. 각 분할에 넣을 데이터의 백분율을 지정할 수 있지만 기본적으로 데이터는 50-50으로 나뉩니다.
각 그룹에서 행 선택을 임의로 지정하고 계층화된 샘플링을 사용할 수도 있습니다. 계층화된 샘플링에서 두 결과 데이터 세트 간에 값을 동일하게 할당하려는 데이터의 단일 열을 선택해야 합니다.
추천 분할: 추천 시스템에서 사용할 데이터를 준비하는 경우 항상 이 옵션을 선택합니다. 사용자 항목 쌍 또는 등급과 같은 중요한 값이 그룹 간에 균등하게 분할되도록 하면서 데이터 세트를 학습 및 테스트 그룹으로 나누는 데 도움이 됩니다.
정규식 분할: 값에 대한 단일 열을 테스트하여 데이터 세트를 분할하려는 경우 이 모드를 사용합니다.
예를 들어 감정을 분석하는 경우 텍스트 필드에 특정 제품 이름이 있는지 확인한 다음, 데이터 세트를 대상 제품 이름이 있는 행과 없는 행으로 나눌 수 있습니다.
상대식 분할: 숫자 열에 조건을 적용하려는 경우 언제든지 이 옵션을 사용합니다. 날짜/시간 필드, 나이 또는 달러 금액을 포함하는 열 또는 백분율일 수 있습니다. 예를 들어 항목의 비용에 따라 데이터 집합을 나누거나, 연령 범위를 기준으로 사용자를 그룹화하거나, 달력 날짜를 기준으로 데이터를 구분할 수 있습니다.
요구 사항
분할 데이터는 한 번에 최대 두 개의 데이터 세트 집합을 만들 수 있으며 이러한 집합은 배타적이어야 합니다.
따라서 여러 조건 및 출력으로 복잡한 분할이 있는 경우 여러 데이터 분할 모듈을 함께 연결해야 할 수 있습니다.
또는 CASE 문과 SQL 적용 변환 모듈을 사용할 수 있습니다.
이 모듈은 데이터를 삭제하거나 데이터 세트에서 제거하지 않습니다. 모듈의 첫 번째 및 두 번째 출력에 지정된 대로 데이터를 나눕니다.
추천 시스템에 대한 데이터를 분할하려면 몇 가지 추가 요구 사항이 필요합니다. 일반적으로 데이터 세트는 사용자 항목 쌍 또는 사용자 항목 등급 트리플로만 구성됩니다. 따라서 데이터 분할 모듈은 기능 유형 데이터와의 혼동을 방지하기 위해 세 개 이상의 열이 있는 데이터 세트에 대해 작업할 수 없습니다. 데이터 세트에 열이 너무 많은 경우 다음 오류가 발생할 수 있습니다.
오류 0022: 입력 데이터 세트에서 선택한 열 수가 x와 같지 않음
해결 방법으로 데이터 세트의 열 선택을 사용하여 일부 열을 제거한 다음 나중에 열 추가를 사용하여 열을 추가할 수 있습니다. 또는 데이터 세트에 모델에서 사용하려는 많은 기능이 있는 경우 다른 옵션을 사용하여 데이터 세트를 나누고 매치박스 추천 학습 대신 학습 모델을 사용하여 모델을 학습시킵니다.
예
데이터 분할 모듈을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.
- 이진 분류에 대한 교차 유효성 검사: 성인 데이터 세트: 20% 샘플링 속도가 적용되어 더 작은 임의 샘플링 데이터 세트를 만듭니다. 원래 인구 조사 데이터 집합에서는 행이 3만 개가 넘었지만 학습 데이터 집합의 행 수는 약 6500개입니다. 데이터 집합에서 누락 값을 정리한 다음 학습 및 교차 유효성 검사를 위해 5개 모델로 데이터 집합을 전달합니다.
기술 정보
분할 데이터의 모든 용도에 다음 요구 사항이 적용됩니다.
- 입력 데이터 세트에 두 개 이상의 행이 포함되어야 하거나 오류가 발생합니다.
- 원하는 행 수를 지정하는 옵션을 사용하는 경우 지정된 숫자는 양의 정수여야 하며 데이터 집합의 총 행 수보다 작아야 합니다.
- 숫자를 백분율로 지정하거나 "%" 문자가 포함된 문자열을 사용하는 경우 값은 백분율로 해석됩니다. 모든 백분율 값은 (0, 100) 범위 내에 있어야 하며 0과 100 값은 사용할 수 없습니다.
- 1보다 작은 부동 소수점 숫자인 백분율이나 수를 지정할 때 퍼센트 기호("%")를 사용하지 않으면 해당 숫자는 비율 값으로 해석됩니다.
- 계층화된 분할에 대한 옵션을 사용하는 경우 출력 데이터 세트는 계층 열을 선택하여 하위 그룹으로 더 나눌 수 있습니다.
예상 입력
Name | 유형 | 설명 |
---|---|---|
데이터 세트 | 데이터 테이블 | 분할할 데이터 집합입니다. |
모듈 매개 변수
Name | Type | 범위 | 옵션 | Description | 기본값 |
---|---|---|---|---|---|
분할 모드 | 분할 모드 | 행 분할, 추천 분할, 정규식 또는 상대 식 | 필수 | 행을 분할합니다. | 데이터 집합을 분할하는 데 사용할 방법을 선택합니다. |
출력
Name | 유형 | 설명 |
---|---|---|
결과 데이터 집합1 | 데이터 테이블 | 선택한 행을 포함하는 데이터 집합 |
결과 데이터 집합2 | 데이터 테이블 | 다른 모든 행을 포함하는 데이터 집합 |