데이터 변환 - 조작
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
이 문서에서는 기본 데이터 조작에 사용할 수 있는 Machine Learning Studio(클래식)의 모듈에 대해 설명합니다.
Machine Learning Studio(클래식)는 정규화 또는 기능 선택과 같은 기계 학습과 관련된 작업을 지원합니다. 이 범주의 모듈은 보다 일반적인 작업을 위한 것입니다.
데이터 조작 작업
이 범주의 모듈은 Machine Learning Studio(클래식)에서 수행해야 할 수 있는 핵심 데이터 관리 작업을 지원하기 위한 것입니다. 다음 작업은 핵심 데이터 관리 작업의 예입니다.
- 조인을 사용하거나 열 또는 행을 병합하여 두 데이터 세트를 결합합니다.
- 데이터 그룹화에 사용할 새 범주를 만듭니다.
- 열 머리글을 수정하거나 열 데이터 형식을 변경하거나 열을 기능 또는 레이블로 플래그를 지정합니다.
- 누락된 값을 확인한 다음 적절한 값으로 바꿉 있습니다.
관련 작업
- 샘플링을 수행하거나 데이터 세트를 학습 및 테스트 집합으로 나눕니다. 데이터 변환 - 샘플 및 분할 모듈을 사용합니다.
- 숫자 배율을 조정하거나, 데이터를 정규화하거나, 숫자 값을 bin에 넣습니다. 데이터 변환 - 크기 조정 및 축소 모듈을 사용합니다.
- 숫자 데이터 필드에 대한 계산을 수행하거나 일반적으로 사용되는 통계를 생성합니다. 통계 함수의 도구를 사용합니다.
예
기계 학습 실험에서 복잡한 데이터를 사용하는 방법에 대한 예제는 Azure AI 갤러리에서 다음 샘플을 참조하세요.
- 데이터 처리 및 분석: 주요 도구 및 프로세스를 보여 줍니다.
- 유방암 감지: 데이터 세트를 분할한 다음 각 파티션에 특수 처리를 적용하는 방법을 보여 줍니다.
이 범주의 모듈
데이터 변환 - 조작 범주에는 다음 모듈이 포함됩니다.
- 열 추가: 한 데이터 세트의 열 집합을 다른 데이터 세트에 추가합니다.
- 행 추가: 입력 데이터 세트의 행 집합을 다른 데이터 세트의 끝에 추가합니다.
- SQL 변환 적용: 입력 데이터 세트에 대해 SQLite 쿼리를 실행하여 데이터를 변환합니다.
- 누락된 데이터 정리: 데이터 세트에서 누락된 값을 처리하는 방법을 지정합니다. 이 모듈은 사용되지 않는 누락 값 스크러버를 대체합니다.
- 표시기 값으로 변환: 열의 범주 값을 표시기 값으로 변환합니다.
- 메타데이터 편집: 데이터 세트의 열과 연결된 메타데이터를 편집합니다.
- 범주 값 그룹화: 여러 범주의 데이터를 새 범주로 그룹화합니다.
- 데이터 조인: 두 데이터 세트를 조인합니다.
- 중복 행 제거: 데이터 세트에서 중복 행을 제거합니다.
- 데이터 세트에서 열 선택: 데이터 세트에 포함하거나 작업의 데이터 세트에서 제외할 열을 선택합니다.
- 열 변환 선택: 지정된 데이터 세트와 동일한 열 하위 집합을 선택하는 변환을 만듭니다.
- SMOTE: 가상 소수 초과 샘플링을 사용하여 데이터 세트의 낮은 발생률 예제 수를 늘림