값 잘라내기
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
이상값을 검색하여 값 자르기 또는 바꾸기
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)의 클립 값 모듈을 사용하여 지정된 임계값보다 높거나 낮은 데이터 값을 식별하고 선택적으로 바꾸는 방법을 설명합니다. 이상값을 제거하거나 평균, 상수 또는 기타 대체 값으로 바꾸려는 경우에 유용합니다.
모듈을 자르고자 하는 숫자가 있는 데이터 세트에 연결하고, 작업할 열을 선택한 다음, 임계값 또는 값 범위 및 대체 메서드를 설정합니다. 모듈은 결과만 출력하거나 원래 데이터 세트에 추가된 변경된 값을 출력할 수 있습니다.
값 잘라내기를 구성하는 방법
시작하기 전에 잘라낼 열과 사용할 메서드를 식별합니다. 먼저 작은 데이터 하위 집합에서 클리핑 메서드를 테스트하는 것을 권장합니다.
모듈은 선택 영역에 포함된 모든 열에 동일한 조건과 대체 메서드를 적용합니다. 따라서 변경하지 않으려는 열을 제외해야 합니다.
일부 열에 클리핑 메서드 또는 다른 조건을 적용해야 하는 경우 비슷한 열의 각 집합에 값 잘라내기의 새 인스턴스를 사용해야 합니다.
클립 값 모듈을 실험에 추가하고 수정하려는 데이터 세트에 연결합니다. 모듈은 데이터 변환 범주에서 찾을 수 있으며, 이는 확장과 축소 범주에 있습니다.
열 목록에서 열 선택기를 사용하여 값 잘라내기가 적용될 열을 선택합니다.
임계값 집합의 경우, 드롭다운 목록에서 다음 옵션 중 하나를 선택합니다. 이러한 옵션은 허용되는 값과 클립되어야 하는 값에 대해 상한 및 하한 경계를 설정하는 방법을 결정합니다.
ClipPeaks: 피크로 값을 잘라내는 경우 상한 경계만 지정합니다. 해당 경계 값보다 큰 값은 대체되거나 제거됩니다.
ClipSubpeaks: 하위 피크로 값을 클리핑하는 경우 하위 경계만 지정합니다. 경계 값보다 작은 값은 대체되거나 제거됩니다.
ClipPeaksAndSubpeaks: 피크 및 하위 피크로 값을 클리핑할 때 상한 및 하한 경계를 모두 지정할 수 있습니다. 해당 범위를 벗어난 값은 대체되거나 제거됩니다. 경계 값과 일치하는 값은 변경되지 않습니다.
이전 단계의 선택 영역에 따라 다음 임계값을 설정할 수 있습니다.
- 하한 임계값: ClipSubPeaks를 선택한 경우에만 표시됩니다
- 상한 임계값: ClipPeaks를 선택한 경우에만 표시됩니다
- 임계값: ClipPeaksAndSubPeaks를 선택한 경우에만 표시됩니다
각 임계값 형식에 대해 상수 또는 백분위수를 선택합니다.
상수를 선택하는 경우 입력란에 최댓값 또는 최솟값을 입력합니다. 예를 들어 값 999가 자리 표시자 값으로 사용되었음을 알고 있다고 가정합니다. 상한 임계값에 대해 상수 값을 선택하고 상수 임계값에 999를 입력할 수 있습니다.
백분위수를 선택하는 경우 열 값을 백분위수 범위로 제한합니다.
예를 들어 백분위수10~80 범위의 값만 유지하고 기타 모든 항목을 대체하려는 경우를 가정해 보겠습니다. 백분위 수를 선택한 다음, 임계값이 낮은 백분위수 값에 10을 입력하고, 상한 임계값의 백분위수 값에 대해 80을 입력합니다.
백분위수 범위를 사용하는 방법에 대한 몇 가지 예는 백분위 수의 섹션을 참조하세요.
대체 값을 정의합니다.
방금 지정한 경계와 정확히 일치하는 숫자는 허용되는 값 범위 내에 있는 것으로 간주되므로 대체되거나 제거되지 않습니다. 지정된 범위를 벗어나는 모든 숫자가 대체 값으로 바뀝니다.
- 피크 대체 값: 지정된 임계값보다 큰 모든 열 값을 대체할 값을 정의합니다.
- 서브피크 대체 값: 지정된 임계값보다 작은 모든 열 값에 대 한 대체 값으로 사용할 값을 정의합니다.
- ClipPeaksAndSubpeaks 옵션을 사용하는 경우 잘라낸 상위 및 하위 값에 별도의 대체 값을 지정할 수 있습니다.
지원되는 대체 값은 다음과 같습니다.
임계값: 클립된 값을 지정된 임계값으로 대체합니다.
평균: 클립된 값을 열 값의 평균으로 대체합니다. 평균은 값을 잘라내기 전에 계산됩니다.
중앙값: 잘라낸 값을 열 값의 중앙값으로 대체합니다. 중앙값은 값을 잘라내기 전에 계산됩니다.
누락 잘라낸 값을 누락된(빈) 값으로 대체합니다.
표시기 열 추가: 지정된 클리핑 작업이 해당 행의 데이터에 적용되었는지 여부를 알려주는 새 열을 생성하려면 이 옵션을 선택합니다. 이 옵션은 새 클리핑 및 대체 값 집합을 테스트할 때 특히 유용합니다.
덮어쓰기 플래그: 새 값을 생성하는 방법을 나타냅니다. 기본값으로 값 잘라내기는 피크 값이 원하는 임계값으로 잘린 새 열을 생성합니다. 새 값은 원래 열을 덮어씁니다.
원래 열을 유지하고 잘라낸 값이 있는 새 열을 추가하려면 이 옵션의 선택을 취소합니다.
실험을 실행합니다.
클립 값 모듈의 출력을 마우스 오른쪽 단추로 클릭하고 시각화를 선택하여 값을 검토하고 클리핑 작업이 기대에 부합하는지 확인합니다.
예
기계 학습 실험에서 이 모듈을 사용하는 방법을 보려면 Azure AI 갤러리를 참조하세요.
- 포리스트 파이어 이상값: 데이터 과학의 EdX couse의 이 예제는 Fire 샘플 데이터 세트를 사용하여 메서드를 클리핑하는 방법을 보여 줍니다.
백분위수로 클리핑
백분위수를 사용한 자르기의 작동 방식을 이해하기 위해 행이 10개인 데이터 집합의 각 행에 값 1-10이 하나씩 포함되어 있다고 가정해 보겠습니다.
상한 임계값으로 백분위수를 사용하는 경우 90번째 백분위수의 값에서 데이터 집합 내 모든 값의 90%는 해당 값보다 작아야 합니다.
하한 임계값으로 백분위수를 사용하는 경우 10번째 백분위수의 값에서 데이터 집합 내 모든 값의 10%는 해당 값보다 작아야 합니다.
임계값 집합에는 ClipPeaksAndSubPeaks를 선택합니다.
상한 임계값에는 백분위수를 선택하고 백분위수 값으로는 90을 입력합니다.
상한 대체 값에는 누락 값을 선택합니다.
하한 임계값에는 백분위수를 선택하고 백분위수 값으로는 10을 입력합니다.
하한 대체 값으로는 누락 값을 선택합니다.
플래그 덮어쓰기옵션 선택을 취소하고 지표 열 추가옵션을 선택합니다.
이제 상한 백분위수 임계값으로는 60을, 하한 백분위수 임계값으로는 30을 사용하고 대체 값으로는 임계값을 사용하여 같은 실험을 다시 수행해 봅니다. 다음 표에는 두 결과를 비교한 내용이 나와 있습니다.
누락 값으로 대체/상한 임계값 = 90/하한 임계값 = 10
임계값으로 대체/상한 백분위수 = 60/하한 백분위수 = 30
원래 데이터 | 누락 값으로 바꾸기 | 임계값으로 바꾸기 |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
기술 정보
숫자 또는 날짜/시간 값이 포함된 열에서만 클립 값을 사용할 수 있습니다.
텍스트 또는 범주 데이터가 들어 있는 열을 포함하면 해당 열을 건너뜁니다.
열에 대해 평균 또는 중앙값을 계산할 때 누락 값은 무시됩니다.
값 자르기에서는 서수 데이터를 지원하지 않습니다.
누락 값은 출력 데이터 집합으로 전파될 때 변경되지 않습니다. 잘린 값을 나타내는 열은 누락 값에 대해 항상 FALSE를 포함합니다.
예상 입력
Name | 유형 | 설명 |
---|---|---|
데이터 세트 | 데이터 테이블 | 입력 데이터 세트 |
모듈 매개 변수
Name | 범위 | Type | 기본값 | 설명 |
---|---|---|---|---|
표시기 열 추가 | TRUE/FALSE | 부울 | FALSE | 값 클리핑을 위한 표시기를 추가할지 여부 |
낮은 임계값에 대한 상수 값 | any | Float | -1 | 하위 원숭이를 클리핑할 아래 값 |
높은 임계값에 대한 상수 값 | any | Float | 1 | 최고점이 잘리게 될 값 |
낮은 임계값의 상수 값 | any | Float | -1 | 하위 표식이 잘린 아래 값 |
높은 임계값의 상수 값 | >=1 | Float | 1 | 최고점이 잘린 위의 값 |
열 목록 | ColumnSelection | 클립할 열 목록 | ||
낮은 대체 값 | 임계값 평균 중앙값 Missing |
SubstituteValues | 임계값 | 하위피를 클리핑하는 데 사용되는 값입니다. |
낮은 임계값 | 상수 백분위수 |
임계값 모드 | 상수 | 하위 원숭이가 잘리게 될 아래 값 |
덮어쓰기 플래그 | TRUE/FALSE | 부울 | TRUE | 잘린 데이터 열이 입력 데이터 열을 덮어써야 하는지 여부 |
낮은 임계값에 대한 백분위수 | [1;99] | 정수 | 1 | 하위 백분위수가 잘릴 백분위수 |
높은 임계값에 대한 백분위수 | [1;99] | 정수 | 99 | 피크가 잘릴 위 백분위수 |
낮은 임계값의 백분위수 | [1;99] | 정수 | 1 | 하위 백분위수가 잘리는 아래 백분위수 |
높은 임계값의 백분위수 | [1;99] | 정수 | 99 | 피크가 잘리는 위 백분위수 |
임계값 집합 | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
임계값 집합 | ClipPeaks | 사용할 임계값 유형을 지정합니다. |
최대 정점에 대한 대체 값 | 임계값 평균 중앙값 Missing |
SubstituteValues | 임계값 | 클리핑 피크 중에 사용되는 값입니다. |
하위 정점에 대한 대체 값 | 임계값 평균 중앙값 Missing |
SubstituteValues | 임계값 | 하위피크를 클리핑하는 동안 사용되는 값입니다. |
임계값 | 상수 백분위수 |
임계값 모드 | 상수 | 피크가 잘리기 모드가 되는 위와 아래 값 |
높은 대체 값 | 임계값 평균 중앙값 Missing |
임계값 | 임계값 | 피크 클리핑에 사용되는 값입니다. |
높은 임계값 | 상수 백분위수 |
임계값 모드 | 상수 | 최고점이 잘린 모드가 되는 위의 값 |
출력
Name | 유형 | 설명 |
---|---|---|
결과 데이터 집합 | 데이터 테이블 | 잘린 열이 포함된 데이터 집합입니다. |
예외
예외 | 설명 |
---|---|
오류 0011 | 전달된 열 집합 인수가 데이트 세트 열에 적용되지 않으면 예외가 발생합니다. |
오류 0017 | 지정한 열 중 하나 이상의 형식이 현재 모듈에서 지원되지 않으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.