다음을 통해 공유


데이터 분할

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

데이터 집합의 행을 두 개의 집합으로 분할

범주: 데이터 변환/샘플 및 분할

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 항목에서는 Machine Learning Studio(클래식)에서 데이터 분할 모듈을 사용하여 데이터 세트를 두 개의 고유 집합으로 나누는 방법을 설명합니다.

이 모듈은 학습 및 테스트 집합으로 데이터를 구분해야 하는 경우에 특히 유용합니다. 데이터를 나누는 방식도 사용자 지정할 수 있습니다. 일부 옵션은 데이터의 임의화를 지원합니다. 다른 데이터 형식은 특정 데이터 형식 또는 모델 형식에 맞게 조정됩니다.

데이터 분할을 구성하는 방법

분할 모드를 선택하기 전에 모든 옵션을 읽어 필요한 분할 유형을 결정합니다. 분할 모드를 변경하면 다른 모든 옵션을 다시 설정할 수 있습니다.

  1. 스튜디오에서 실험에 데이터 분할 모듈을 추가합니다. 이 모듈은 샘플 및 분할 범주의 데이터 변환에서 찾을 수 있습니다.

  2. 분할 모드: 데이터 형식 및 분할 방법에 따라 다음 모드 중 하나를 선택합니다. 분할 모드마다 옵션이 다릅니다. 자세한 지침 및 예제를 보려면 다음 항목을 클릭합니다.

    • 행 분할: 데이터를 두 부분으로 나누려면 이 옵션을 사용합니다. 각 분할에 넣을 데이터의 백분율을 지정할 수 있지만 기본적으로 데이터는 50-50으로 나뉩니다.

      각 그룹에서 행 선택을 임의로 지정하고 계층화된 샘플링을 사용할 수도 있습니다. 계층화된 샘플링에서 두 결과 데이터 세트 간에 값을 동일하게 할당하려는 데이터의 단일 열을 선택해야 합니다.

    • 추천 분할: 추천 시스템에서 사용할 데이터를 준비하는 경우 항상 이 옵션을 선택합니다. 사용자 항목 쌍 또는 등급과 같은 중요한 값이 그룹 간에 균등하게 분할되도록 하면서 데이터 세트를 학습 및 테스트 그룹으로 나누는 데 도움이 됩니다.

    • 정규식 분할: 값에 대한 단일 열을 테스트하여 데이터 세트를 분할하려는 경우 이 모드를 사용합니다.

      예를 들어 감정을 분석하는 경우 텍스트 필드에 특정 제품 이름이 있는지 확인한 다음, 데이터 세트를 대상 제품 이름이 있는 행과 없는 행으로 나눌 수 있습니다.

    • 상대식 분할: 숫자 열에 조건을 적용하려는 경우 언제든지 이 옵션을 사용합니다. 날짜/시간 필드, 나이 또는 달러 금액을 포함하는 열 또는 백분율일 수 있습니다. 예를 들어 항목의 비용에 따라 데이터 집합을 나누거나, 연령 범위를 기준으로 사용자를 그룹화하거나, 달력 날짜를 기준으로 데이터를 구분할 수 있습니다.

요구 사항

  • 분할 데이터는 한 번에 최대 두 개의 데이터 세트 집합을 만들 수 있으며 이러한 집합은 배타적이어야 합니다.

    따라서 여러 조건 및 출력으로 복잡한 분할이 있는 경우 여러 데이터 분할 모듈을 함께 연결해야 할 수 있습니다.

    또는 CASE 문과 SQL 적용 변환 모듈을 사용할 수 있습니다.

  • 이 모듈은 데이터를 삭제하거나 데이터 세트에서 제거하지 않습니다. 모듈의 첫 번째 및 두 번째 출력에 지정된 대로 데이터를 나눕니다.

  • 추천 시스템에 대한 데이터를 분할하려면 몇 가지 추가 요구 사항이 필요합니다. 일반적으로 데이터 세트는 사용자 항목 쌍 또는 사용자 항목 등급 트리플로만 구성됩니다. 따라서 데이터 분할 모듈은 기능 유형 데이터와의 혼동을 방지하기 위해 세 개 이상의 열이 있는 데이터 세트에 대해 작업할 수 없습니다. 데이터 세트에 열이 너무 많은 경우 다음 오류가 발생할 수 있습니다.

    오류 0022: 입력 데이터 세트에서 선택한 열 수가 x와 같지 않음

    해결 방법으로 데이터 세트의 열 선택을 사용하여 일부 열을 제거한 다음 나중에 열 추가를 사용하여 열을 추가할 수 있습니다. 또는 데이터 세트에 모델에서 사용하려는 많은 기능이 있는 경우 다른 옵션을 사용하여 데이터 세트를 나누고 매치박스 추천 학습 대신 학습 모델을 사용하여 모델을 학습시킵니다.

데이터 분할 모듈을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.

  • 이진 분류에 대한 교차 유효성 검사: 성인 데이터 세트: 20% 샘플링 속도가 적용되어 더 작은 임의 샘플링 데이터 세트를 만듭니다. 원래 인구 조사 데이터 집합에서는 행이 3만 개가 넘었지만 학습 데이터 집합의 행 수는 약 6500개입니다. 데이터 집합에서 누락 값을 정리한 다음 학습 및 교차 유효성 검사를 위해 5개 모델로 데이터 집합을 전달합니다.

기술 정보

분할 데이터의 모든 용도에 다음 요구 사항이 적용됩니다.

  • 입력 데이터 세트에 두 개 이상의 행이 포함되어야 하거나 오류가 발생합니다.
  • 원하는 행 수를 지정하는 옵션을 사용하는 경우 지정된 숫자는 양의 정수여야 하며 데이터 집합의 총 행 수보다 작아야 합니다.
  • 숫자를 백분율로 지정하거나 "%" 문자가 포함된 문자열을 사용하는 경우 값은 백분율로 해석됩니다. 모든 백분율 값은 (0, 100) 범위 내에 있어야 하며 0과 100 값은 사용할 수 없습니다.
  • 1보다 작은 부동 소수점 숫자인 백분율이나 수를 지정할 때 퍼센트 기호("%")를 사용하지 않으면 해당 숫자는 비율 값으로 해석됩니다.
  • 계층화된 분할에 대한 옵션을 사용하는 경우 출력 데이터 세트는 계층 열을 선택하여 하위 그룹으로 더 나눌 수 있습니다.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 분할할 데이터 집합입니다.

모듈 매개 변수

Name Type 범위 옵션 Description 기본값
분할 모드 분할 모드 행 분할, 추천 분할, 정규식 또는 상대 식 필수 행을 분할합니다. 데이터 집합을 분할하는 데 사용할 방법을 선택합니다.

출력

Name 유형 설명
결과 데이터 집합1 데이터 테이블 선택한 행을 포함하는 데이터 집합
결과 데이터 집합2 데이터 테이블 다른 모든 행을 포함하는 데이터 집합

참고 항목

샘플링 및 분할
파티션 및 샘플
전체 모듈 목록