다음을 통해 공유


메타데이터 편집

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

데이터 집합의 열과 연결된 메타데이터 편집

범주: 데이터 변환/조작

참고

적용 대상: Machine Learning Studio(클래식)

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 메타데이터 편집 모듈을 사용하여 데이터 세트의 열과 연결된 메타데이터를 변경하는 방법을 설명합니다. 데이터 세트의 값과 데이터 형식은 실제로 변경되지 않습니다. 변경 내용은 다운스트림 구성 요소에 열을 사용하는 방법을 알려주는 Machine Learning 내의 메타데이터입니다.

일반적인 메타데이터 변경 작업은 다음과 같습니다.

  • 부울 또는 숫자 열을 범주 값으로 처리

  • 클래스 레이블을 포함하는 열 또는 범주화하거나 예측하려는 값 표시

  • 열을 기능으로 표시

  • 날짜/시간 값을 숫자 값으로 변경하거나 그 반대로 변경

  • 열 이름 바꾸기

일반적으로 다운스트림 모듈에 대한 요구 사항을 충족하기 위해 열 정의를 수정해야 할 때마다 메타데이터 편집 을 사용합니다. 예를 들어 일부 모듈은 특정 데이터 형식에서만 작동하거나 열에 플래그(예: IsFeature 또는 IsCategorical)가 필요할 수 있습니다.

필요한 작업을 수행한 후에는 메타데이터를 원래 상태로 다시 설정할 수 있습니다.

메타데이터 편집을 구성하는 방법

  1. Machine Learning Studio(클래식)에서 메타데이터 편집 모듈을 실험에 추가하고 업데이트하려는 데이터 세트를 연결합니다. 데이터 변환조작 범주에서 찾을 수 있습니다.

  2. 열 선택기 시작을 클릭하고 작업할 열 또는 열 집합을 선택합니다. 열은 이름 또는 인덱스별로 개별적으로 선택하거나 형식별로 열 그룹을 선택할 수 있습니다.

    열 인덱스를 사용하는 데 도움이 필요하세요? 기술 정보 섹션을 참조하세요.

  3. 선택한 열에 다른 데이터 형식을 할당해야 하는 경우 데이터 형식 옵션을 선택합니다. 특정 작업에는 데이터 형식 변경이 필요할 수 있습니다. 예를 들어 원본 데이터 세트에 숫자로 처리된 숫자가 있는 경우 수학 연산을 사용하기 전에 숫자 데이터 형식으로 변경해야 합니다.

    • 지원되는 데이터 형식은 ,Integer, Floating pointBooleanDateTimeTimeSpan입니다.String

    • 여러 열을 선택한 경우 선택한 모든 열에 메타데이터 변경 내용을 적용해야 합니다. 예를 들어 2-3개의 숫자 열을 선택한다고 가정해 보겠습니다. 모두 문자열 데이터 형식으로 변경하고 하나의 작업에서 이름을 바꿀 수 있습니다. 그러나 한 열은 문자열 데이터 형식으로 변경하고 다른 열은 float에서 정수로 변경할 수는 없습니다.

    • 새 데이터 형식을 지정하지 않으면 열 메타데이터가 변경되지 않습니다.

    • 데이터 형식의 변경 내용은 데이터 세트와 연결된 메타데이터 및 다운스트림 작업에서 데이터가 처리되는 방식에만 영향을 줍니다. 즉, 열에 대해 반올림 등의 다른 작업을 수행하는 경우가 아니면 실제 열 값은 변경되지 않습니다. 메타데이터 편집을 사용하여 열 데이터 형식을 다시 설정하여 언제든지 원래 데이터 형식을 복구할 수 있습니다.

    참고

    숫자 형식을 날짜/시간 형식으로 변경하는 경우 날짜/시간 형식 필드를 비워 둡니다. 현재 대상 데이터 형식을 지정할 수 없습니다.

Machine Learning 숫자가 지원되는 .NET DateTime 개체 중 하나와 호환되는 경우 날짜를 숫자로 변환하거나 숫자를 날짜로 변환할 수 있습니다. 자세한 내용은 기술 정보 섹션을 참조하세요.

  1. 범주 옵션을 선택하여 선택한 열의 값이 범주로 처리되도록 지정합니다.

    예를 들어 숫자 0,1과 2를 포함하는 열이 있을 수 있지만 실제로 숫자가 "스모커", "비흡연자" 및 "알 수 없음"을 의미한다는 것을 알 수 있습니다. 이 경우 열을 범주로 플래그를 지정하면 값이 숫자 계산에 사용되지 않고 데이터를 그룹화하기 위해서만 사용할 수 있습니다.

  2. Machine Learning 모델의 데이터를 사용하는 방식을 변경하려면 필드 옵션을 사용합니다.

    • 기능: 기능 열에서만 작동하는 모듈에 사용하기 위해 이 옵션을 사용하여 열에 기능으로 플래그를 지정합니다. 기본적으로 모든 열은 초기에 기능으로 처리됩니다.

    • 레이블: 레이블(예측 가능한 특성 또는 대상 변수라고도 함)을 표시하려면 이 옵션을 사용합니다. 많은 모듈을 사용하려면 데이터 세트에 하나 이상의 레이블 열이 있어야 합니다.

      대부분의 경우 Machine Learning 열에 클래스 레이블이 포함되어 있다고 유추할 수 있지만 이 메타데이터를 설정하면 열이 올바르게 식별되도록 할 수 있습니다. 이 옵션을 설정해도 데이터 값은 변경되지 않으며 일부 기계 학습 알고리즘에서 데이터를 처리하는 방식만 변경됩니다.

    • 가중치: 숫자 데이터와 함께 이 옵션을 사용하여 열 값이 기계 학습 점수 매기기 또는 학습 작업에 사용할 가중치를 나타낸다는 것을 나타냅니다. 하나의 가중치 열만 데이터 세트에 있을 수 있으며 열은 숫자여야 합니다. 이 옵션은 Two-Class 로지스틱 회귀, Two-Class 지원 벡터 머신 및 Two-Class 신경망 모델에서만 작동합니다.

    이러한 범주에 맞지 않는 데이터가 있나요? 예를 들어 데이터 세트에는 변수로 유용하지 않은 고유 식별자와 같은 값이 포함될 수 있습니다. 경우에 따라 모델에서 사용할 때 ID로 인해 문제가 발생할 수 있습니다.

    다행히 "아래" Machine Learning 모든 데이터를 유지하므로 데이터 세트에서 이러한 열을 삭제할 필요가 없습니다. 몇 개의 특별한 열 집합에서 작업을 수행해야 하는 경우 데이터 세트에서 열 선택 모듈을 사용하여 다른 모든 열을 일시적으로 제거하면 됩니다. 나중에 열 추가 모듈을 사용하여 열을 데이터 세트에 다시 병합할 수 있습니다.

  3. 다음 옵션을 사용하여 이전 선택 항목을 지우고 메타데이터를 기본값으로 복원합니다.

    • 기능 지우기: 기능 플래그를 제거하려면 이 옵션을 사용합니다.

      처음에는 모든 열이 기능으로 처리되므로 수학 연산을 수행하는 모듈의 경우 숫자 열이 변수로 처리되지 않도록 이 옵션을 사용해야 할 수 있습니다.

    • 레이블 지우기: 지정된 열에서 레이블 메타데이터를 제거하려면 이 옵션을 사용합니다.

    • 점수 지우기: 지정된 열에서 점수 메타데이터를 제거하려면 이 옵션을 사용합니다.

      현재 열을 점수로 명시적으로 표시하는 기능은 Machine Learning 사용할 수 없습니다. 그러나 일부 작업을 수행하면 내부적으로 열에 점수 플래그가 지정됩니다. 사용자 지정 R 모듈에서 점수 값을 출력할 수도 있습니다.

    • 가중치 지우기: 지정된 열에서 가중치 메타데이터를 제거하려면 이 옵션을 사용합니다.

  4. 새 열 이름의 경우 선택한 열 또는 열의 새 이름을 입력합니다.

    • 열 이름은 UTF-8 인코딩에서 지원하는 문자만 사용할 수 있습니다. 공백으로 구성된 빈 문자열, null 또는 이름은 허용되지 않습니다.

    • 여러 열의 이름을 바꾸려면 열 인덱스 순서대로 이름을 쉼표로 구분된 목록으로 입력합니다.

    • 선택한 모든 열의 이름을 바꾸어야 합니다. 열을 생략하거나 건너뛸 수 없습니다.

    여러 열의 이름을 바꿔야 하는 경우 미리 준비된 쉼표로 구분된 문자열에 붙여넣을 수 있습니다. 또는 R 스크립트 실행 또는 SQL 변환 모듈 적용을 사용합니다. 코드 및 예제는 기술 정보 섹션을 참조하세요.

  5. 실험을 실행합니다.

데이터 준비 및 모델 빌드에 메타데이터 편집 을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.

  • 유방암 감지: 열 이름은 데이터 세트에 조인한 후 변경됩니다. 환자 ID 열은 계산에 사용되지 않고 문자열 값으로 처리되도록 범주로 플래그가 지정됩니다.

  • Twitter 감정 분석: 메타데이터 편집 을 사용하여 열이 기능으로 처리되도록 하는 방법을 보여 줍니다. 실험의 뒷부분에서 기능 메타데이터가 지워집니다.

  • 데이터 처리 및 분석: 이 샘플에서는 메타데이터 편집 을 사용하여 웹 페이지에서 로드된 데이터에 대한 새 열 이름을 정의합니다.

기술 정보

이 섹션에는 알려진 문제, 질문과 대답 및 일반적인 해결 방법의 몇 가지 예가 포함되어 있습니다.

알려진 문제

  • 사용자 지정 메타데이터는 지원되지 않습니다. Machine Learning 사용자 지정 메타데이터를 사용하거나 메타데이터 편집 외부에서 열 메타데이터를 편집할 수 없습니다. 예를 들어 열이 고유 식별자임을 나타내는 메타데이터를 추가하거나 다른 설명 특성을 추가할 수 없습니다. Machine Learning 요소, 기능, 가중치 및 레이블 작업을 위해 R 내에서 사용되는 메타데이터 특성만 지원합니다.

  • 지원되지 않는 데이터 형식입니다. 다음 숫자 데이터 형식은 지원되지 않습니다. Double(10진수) 및 TimeStamp입니다.

  • 점수 열 식별 현재 메타데이터 편집 에는 열에 점수가 포함된 것으로 플래그를 지정하는 옵션이 없습니다. 그러나 다음과 유사한 스크립트와 함께 R 스크립트 실행 모듈을 사용하여 열에 점수가 포함되어 있음을 나타낼 수 있습니다.

    dataset <- maml.mapInputPort(1)   
    attr(dataset$x, "label.type")= "True Labels"  
    attr(dataset$y, "feature.channel")= "Multiclass Classification Scores"  
    attr(dataset$y, "score.type")= "Assigned Labels"  
    maml.mapOutputPort("dataset");
    
  • 날짜/시간 형식에 문제가 있습니다. Machine Learning 사용하는 기본 datetime 데이터 형식은 .입니다POSIXct.

    열의 모든 날짜를 기본 파서로 구문 분석할 수 있는 경우 열을 가져오고 문자열 데이터로 처리합니다.

    메타데이터 편집 모듈을 사용하여 열을 DateTime 변환하고 오류가 발생하면 날짜가 .Net에서 기본적으로 허용하는 형식이 아님을 의미합니다. 이 경우 R 스크립트 실행 모듈 또는 SQL 변환 적용 모듈을 사용하여 열을 기본 파서에서 허용하는 형식으로 변환하는 것이 좋습니다.

    DateTime.Parse 메서드

    표준 날짜 및 시간 형식 문자열

열 인덱스를 사용하여 열 선택

매우 큰 데이터 세트의 경우 모든 열 이름을 수동으로 입력하거나 선택하는 것은 불가능합니다. 열 인덱스를 사용하는 것은 여러 열을 지정하는 데 사용할 수 있는 바로 가기 중 하나입니다. 이 섹션에서는 열 인덱스 사용에 대한 몇 가지 팁을 제공합니다.

예를 들어 열 선택기를 열고 WITH RULES를 클릭하고 포함열 인덱스를 선택한 다음 다음과 같이 범위 또는 일련의 숫자를 입력합니다.

  • 처음 20개 열을 선택하려면 입력 1-20 합니다.
  • 5부터 시작하여 열 20을 포함하는 열 범위를 선택하려면 입력 5-20 합니다.
  • 불연속 열을 선택하려면 입력 1,5,10,15 합니다.
  • 열 1, 2, 5를 선택하고 열 3과 4를 건너뛰도록 입력 1-2, 5 합니다.
  • 데이터 세트에서 사용할 수 있는 열 수보다 큰 인덱스 값을 입력할 수 없습니다.

다음 실험에서는 여러 열을 선택하고 수정하기 위한 다른 방법의 몇 가지 예를 제공합니다.

  • 이진 분류: 유방암 감지: 원래 데이터에는 스프레드시트에서 가져오는 동안 생성된 많은 빈 열이 포함되어 있습니다. 데이터 분할 모듈에서 열 1-11을 지정하여 추가 열이 제거되었습니다.

  • UCI에서 데이터 세트 다운로드: 데이터 수동 입력 모듈을 사용하여 열 이름을 목록으로 제공한 다음 R 스크립트 실행 모듈을 사용하여 목록을 제목으로 데이터 세트에 삽입하는 방법을 보여 줍니다.

  • Regex 열 선택: 이 실험에서는 열 이름에 정규식을 적용할 수 있는 사용자 지정 모듈을 제공합니다. 메타데이터 편집에 대한 입력으로 이 모듈을 사용할 수 있습니다.

열 이름을 수정하는 대체 메서드

이름을 바꿀 열이 많은 경우 R 스크립트 실행 모듈 또는 SQL 변환 적용 모듈을 사용할 수 있습니다.

R 스크립트 사용

Machine Learning 사용하는 데이터 집합은 data.frame으로 이 모듈에 전달됩니다. 즉, R colnames() 함수 및 기타 관련 R 함수를 사용하여 열 이름을 나열하거나 변경할 수 있습니다.

예를 들어 다음 코드는 새 열 이름 목록을 만든 다음 입력 데이터 세트에 해당 목록을 적용하여 새 열 머리글을 생성합니다.

irisdata <- maml.mapInputPort(1);    
newnames <- c("CLASS", "SEPAL  LENGTH", "SEPAL WIDTH", "PETAL LENGTH", "PETAL WIDTH");
colnames(irisdata) = newnames
maml.mapOutputPort("irisdata");

다음 예제에서는 R의 정규식을 사용하여 열 이름 irisdata에 지정된 문자열의 모든 인스턴스를 전역적으로 바꿉니다.

# Map input dataset to variable
newirisdata <- maml.mapInputPort(1) # class: data.frame
names(newirisdata) <- gsub("col", "iris", names(newirisdata))
maml.mapOutputPort("newirisdata");

SQL 사용

다음 예제에서는 데이터 세트를 입력으로 사용한 다음 AS 키워드를 사용하여 열 이름을 변경합니다.

SELECT col1 as [C1], 
  col2 as [C2], 
  col3 as [C3], 
  col4 as [C4],
  col5 as [C5] 
FROM t1;

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

Name 범위 Type 기본값 Description
모두 ColumnSelection 변경 내용을 적용해야 하는 열을 선택합니다.
데이터 형식 목록 메타데이터 편집기 데이터 형식 변경 안 됨 열의 새 데이터 형식을 지정합니다.
범주 목록 메타데이터 편집기 범주 변경 안 됨 열에 범주 플래그를 지정해야 하는지 여부를 나타냅니다.
필드 목록 메타데이터 편집기 플래그 변경 안 됨 학습 알고리즘에서 열을 기능 또는 레이블로 간주해야 하는지 여부를 지정합니다.
새 열 이름 any String 열의 새 이름을 입력합니다.

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 변경된 메타데이터를 포함하는 데이터 집합입니다.

예외

예외 설명
오류 0003 입력 데이터 집합 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0017 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0031 열 집합의 열 수가 필요한 수보다 적으면 예외가 발생합니다.
오류 0027 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다.
오류 0028 열 집합에서 열 이름이 중복되어서는 안 되는데 중복되는 경우 예외가 발생합니다.
오류 0037 레이블 열이 하나만 허용되는데 여러 개를 지정하면 오류가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

조작
데이터 변환
전체 모듈 목록