다음을 통해 공유


범주 값 그룹화

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

여러 범주의 데이터를 새 범주로 그룹화

범주: 데이터 변환/조작

참고

적용 대상: Machine Learning Studio(클래식)

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 그룹 범주 값 모듈을 사용하여 현재 위치 조회 테이블을 만드는 방법을 설명합니다.

범주 값을 그룹화하기 위한 일반적인 용도는 여러 문자열 값을 단일 새 수준으로 병합하는 것입니다. 예를 들어 지역의 개별 우편 번호는 단일 지역 코드에 할당하거나 여러 제품을 하나의 범주로 그룹화할 수 있습니다.

이 모듈을 사용하려면 사용하려는 조회 값을 입력하고 기존 값을 대체 값에 매핑합니다. 레이블 또는 기능으로 지정된 숫자 형식의 열이나 열이 아닌 범주 열에 대해서만 그룹화할 수 있습니다.

새 수준에 명시적으로 매핑되지 않은 열 값은 기본 수준에 할당됩니다. 예를 들어 모든 개별 우편 번호가 매핑되지 않은 경우 매핑되지 않은 값에 대한 수준으로 그룹화되며 알 수 없음으로 지정할 수 있습니다.

참고

기본 수준을 포함하여 최대 20개의 새 수준을 만들 수 있습니다. 더 많은 값이 필요하거나 매핑을 동적으로 정의해야 하는 경우 R 스크립트 실행 모듈에서 사용자 지정 R 스크립트를 사용하는 것이 좋습니다. 또는 SQL 변환 적용 모듈에서 SQL 문을 사용합니다.

그룹 범주 값을 사용하는 방법

기존 값 목록과 새 범주를 미리 준비하는 것이 좋습니다. 각 범주에 대해 새 범주 이름과 범주에 포함할 값의 쉼표로 구분된 목록을 준비해야 합니다.

  1. 실험에 그룹 범주 값 모듈을 추가합니다. 데이터 변환, 조작에서 모듈을 찾을 수 있습니다.

  2. 변환할 값이 있는 데이터 세트를 커넥트.

  3. 그룹 범주 값속성 창에서 열 선택기를 사용하여 줄이려는 수준이 있는 열을 선택합니다.

    • BEGIN WITHNO COLUMNS를 클릭하여 시작한 다음 이름으로 열을 추가하는 것이 좋습니다. 그렇지 않으면 너무 많은 열이 후보로 추가되어 오류가 발생할 수 있습니다.

    • 해당 열은 범주 열이어야 합니다. 그렇지 않은 경우 메타데이터 편집 업스트림을 추가하고 열 형식을 변경합니다.

    • 문자열 대체를 적용할 수 없는 열을 입력에서 제거해야 합니다.

  4. 출력 모드의 경우 새 수준만 출력할지 또는 변경 내용을 추가하여 원래 열을 나란히 바꿀지 여부를 나타냅니다.

    기본값인 ResultOnly는 새 값만 표시합니다. Inplace 옵션은 기존 열 값을 새 수준으로 바꿉니다.

  5. 기본 수준 이름의 경우 명시적으로 매핑되지 않은 모든 값의 대체로 사용할 문자열 값을 입력합니다. "알 수 없음" 또는 "기본값"과 같은 항목을 사용할 수 있습니다.

    참고

    이 기본 수준 값은 매핑할 수 없는 모든 값에 적용됩니다. 매핑할 의도가 없는 열을 실수로 포함하면 열의 모든 값에 값이 적용됩니다. 따라서 처리하기 전에 열 선택이 정확한지 확인합니다.

  6. 새 수준 수의 경우 매핑되지 않은 값의 기본 수준을 포함하여 새 범주(수준)의 총 수를 나타내는 숫자를 입력합니다.

  7. 새 수준 1의 이름으로 첫 번째 범주에 대한 새 그룹 이름을 제공합니다.

  8. 바로 뒤에 있는 텍스트 상자에 새 수준 1에 매핑할 이전 수준의 쉼표로 구분된 목록을 입력하거나 새 수준에 매핑할 모든 값의 전체 목록을 입력하거나 붙여넣습니다. 와일드카드 문자 및 정규식은 허용되지 않습니다.

  9. 계속해서 새 수준 이름을 입력하고 새 수준에 매핑해야 하는 값을 입력하거나 붙여넣습니다.

    작업할 때 값 목록을 별도의 파일에 저장하는 것이 좋습니다. 수준 수를 변경하면 이전에 입력한 문자열이 모두 제거되고 다시 시작해야 합니다.

    그러나 이전에 저장한 모듈을 편집하는 경우 원래 설정으로 되돌릴 수 있습니다.

  10. 실험을 실행합니다.

결과

결과를 보려면 그룹 범주 값 모듈을 마우스 오른쪽 단추로 클릭하고 결과 데이터 세트를 선택한 다음 시각화를 클릭합니다.

작동 중인 기계 학습의 예는 Azure AI 갤러리를 참조하세요.

Machine Learning Studio(클래식)에서 제공되는 자동차 가격 데이터 세트와 같이 쉽게 그룹화할 수 있는 몇 가지 문자열 변수가 있는 작은 데이터 세트를 사용하여 이 모듈을 직접 사용해 볼 수도 있습니다.

실린더 수를 사용하여 자동차 가격 데이터 세트의 자동차를 엔진 크기별로 그룹화한다고 가정해 보겠습니다. 다양한 엔진 크기 대신 다음과 같이 새 수준인 "big", "small" 및 "other"를 만듭니다.

  • 대형 엔진: 실린더 6개 이상
  • 소형 엔진: 2~4개의 실린더
  • 기타: 기타 항목
  1. 데이터 세트 모듈에서 열 선택 모듈을 추가하고 열만 num-of-cylinders 선택합니다.
  2. 메타데이터 편집 모듈을 추가하고 열을 범주로 변경 num-of-cylinders합니다.
  3. 그룹 범주 값 모듈을 추가하고 수정된 데이터 세트를 연결합니다.
  4. 기본 수준 이름에 을 입력합니다other. 이 수준에 대한 값을 제공할 필요가 없습니다.
  5. 새 수준 1의 이름에 을 입력합니다big. 수준 1에 매핑할 이전 수준 목록에서 붙여넣습니다 six, eight, twelve.
  6. 새 수준 2의 이름에 을 입력합니다small. 매핑된 값의 경우 을 붙여넣습니다 two, four.
  7. 실험을 실행합니다.
  8. 결과를 시각화 하면 원래 데이터 세트에 고려하지 않은 일부 홀수 엔진 크기(예: fivethree및 )가 있음을 알게 됩니다. 이러한 모든 항목은 수준에 매핑 other 됩니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

  • "이름이< "columnname>"인 열이 허용되는 범주에 있지 않습니다." 오류 메시지가 표시될 수 있습니다.

    이 메시지는 선택한 열이 범주 열이 아님을 나타냅니다. 메타데이터 편집을 사용하여 열을 Categorical 표시하거나 적절한 범주 값이 포함된 다른 열을 선택할 수 있습니다.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 그룹화할 데이터입니다.

모듈 매개 변수

Name 범위 Type 기본값 설명
선택한 열 any ColumnSelection CategoricalAll 그룹화할 열을 선택합니다.
출력 모드 any OutputTo ResultOnly 범주 레이블을 출력할 방법을 지정합니다.
기본 수준 이름 any String 일치하는 매핑이 없는 경우 사용할 기본 수준을 나타냅니다.
새 수준 수 목록 그룹 수 값을 그룹화한 후의 수준 수(기본 수준 포함)를 지정합니다.

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 그룹화된 데이터입니다.

참고 항목

조작
데이터 변환
전체 모듈 목록