다음을 통해 공유


상대 식을 사용하여 데이터 세트 분할

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)의 데이터 분할 모듈에서 상대 식 분할 옵션을 사용하는 방법을 설명합니다. 이 옵션은 숫자 식을 사용하여 데이터 세트를 학습 및 테스트 데이터 세트로 나누어야 하는 경우에 유용합니다. 예를 들면 다음과 같습니다.

  • 40세 이상 및 40세 이하의 연령
  • 60 이상 및 60 미만의 테스트 점수
  • 1의 순위 값과 다른 모든 값

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

데이터를 나누려면 데이터에서 단일 숫자 열을 선택하고 각 행을 평가하는 데 사용할 식을 정의합니다. 상대 식에는 열 이름, 값 및 보다 크거나 작음, 같음 및 같지 않음과 같은 연산자가 포함되어야 합니다.

이 옵션은 데이터 세트를 그룹으로 나눕니다.

기계 학습 실험에 대한 데이터 분할에 대한 일반적인 내용은 데이터 분할분할 및 분할을 참조하세요.

데이터 분할 모듈의 다른 옵션:

상대 식을 사용하여 데이터 세트 나누기

  1. Stuio에서 실험에 데이터 분할 모듈을 추가하고 분할하려는 데이터 세트에 입력으로 연결합니다.

  2. 분할 모드에서 상대 식 분할을 선택합니다.

  3. 관계형 식 텍스트 상자에 단일 열에 숫자 비교 작업을 수행하는 식을 입력합니다.

    • 열에는 날짜/시간 데이터 형식을 포함하여 숫자 데이터 형식의 숫자가 포함됩니다.

    • 식은 열 이름을 하나까지만 참조할 수 있습니다.

    • AND 작업에 앰퍼샌드 문자(&)를 사용하고 OR 작업에 파이프 문자(|)를 사용합니다.

    • 지원<되는 연산자는 , , ><=, >=, , ==입니다.!=

    • )를 사용하여 ( 작업을 그룹화할 수 없습니다.

    아이디어는 예제 섹션을 참조 하세요 .

  4. 실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.

    이 표현식은 데이터 집합을 두 개의 행 집합(조건에 맞는 값이 있는 행과 나머지 모든 행)으로 나눕니다.

    추가 분할 작업을 수행해야 하는 경우 *데이터 분할의 두 번째 instance 추가하거나 SQL 변환 적용 모듈을 사용하고 CASE 문을 정의할 수 있습니다.

상대 식의 예

다음 예제에서는 데이터 분할 모듈의 상대 식 옵션을 사용하여 데이터 세트를 나누는 방법을 보여 줍니다.

연도 사용

연도별로 데이터 집합을 나누는 것이 일반적인 시나리오입니다. 다음 식은 Year 열의 값이 2010보다 큰 모든 행을 선택합니다.

\"Year" > 2010

날짜 식은 데이터 열에 포함된 모든 날짜 부분을 고려해야 하며 데이터 열의 날짜 형식은 일치해야 합니다.

예를 들어 형식 mmddyyyy을 사용하는 날짜 열에서 식은 다음과 같아야 합니다.

\"Date" > 1/1/2010

열 인덱스 사용

다음 식은 열 인덱스를 사용하여 30 이하이지만 20과는 같지 않은 값이 포함된 데이터 집합의 첫 번째 열에 있는 모든 행을 선택하는 방법을 보여 줍니다.

(\0)<=30 & !=20

여러 분할을 사용하여 시간 값에 대한 복합 작업

너무 오래 실행되는 쿼리를 그룹화하기 위해 로그 데이터의 테이블을 분할하려 한다고 가정합니다. 열 Elapsed에서 다음 상대 식을 사용하여 1분 이상 실행된 쿼리를 가져올 수 있습니다.

\"Elapsed" >00:01:00

응답 시간이 1분 미만이지만 30초보다 많은 쿼리를 얻으려면 오른쪽 출력에 데이터 분할의 또 다른 instance 추가하고 다음과 같은 식을 사용합니다.

\"Elapsed" <:00:01:00 & >00:00:30

날짜 값에 대한 데이터 세트 분할

다음 상대 식은 열 dt1의 날짜 값을 사용하여 데이터 세트를 나눕니다.

\"dt1" > 10-08-2015

날짜가 10-08-2015보다 큰 행이 첫 번째(왼쪽) 출력 데이터 세트에 추가됩니다.

날짜가 10-08-2015 이전인 행은 두 번째(오른쪽) 출력 데이터 세트에 추가됩니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 대답이 포함되어 있습니다.

제한

다음 제한 사항은 데이터 세트의 상대 식에 적용됩니다.

  • 상대 식은 숫자 데이터 형식 및 날짜/시간 데이터 형식에만 적용할 수 있습니다.
  • 상대 식은 열 이름을 하나까지만 참조할 수 있습니다.
  • AND 연산에 앰퍼샌드 문자(&)를 사용하고 OR 작업에 파이프 문자(|)를 사용합니다.
  • 상대 식에 대해 허용되는 연산자는 , , ><=, , >=, ==입니다<.!=
  • 괄호로 작업 그룹화는 지원되지 않습니다.

추가 정보

샘플링 및 분할
파티션 및 샘플