ML Studio(클래식) 모듈의 기계 학습 모듈
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
일반적인 기계 학습 워크플로에는 여러 단계가 포함됩니다.
해결할 문제 및 결과를 측정하기 위한 메트릭 식별
적절한 데이터 찾기, 정리 및 준비
최상의 기능을 식별하고 새로운 기능을 엔지니어링합니다.
모델 빌드, 평가 및 튜닝
모델을 사용하여 예측, 권장 사항 및 기타 결과를 생성합니다.
이 섹션의 모듈은 모델을 학습하기 위해 데이터에 알고리즘을 적용하는 기계 학습의 마지막 단계에 대한 도구를 제공합니다. 이러한 최종 단계에서는 점수를 생성한 다음 모델의 정확도와 유용성을 평가합니다.
범주별 기계 학습 작업 목록
-
클러스터링, 회귀, 분류 및 변칙 검색 모델을 비롯한 다양한 사용자 지정 가능한 기계 학습 알고리즘 중에서 선택합니다.
-
패턴에서 학습하고 예측에 사용할 수 있는 통계를 만들도록 구성된 모델에 데이터를 제공합니다.
-
학습된 모델을 사용하여 예측을 만듭니다.
-
학습된 모델의 정확도를 측정하거나 여러 모델을 비교합니다.
이 실험 워크플로에 대한 자세한 설명은 신용 위험 솔루션 연습을 참조하세요.
사전 요구 사항
모델 빌드의 재미있는 부분을 알아보려면 일반적으로 많은 준비가 필요합니다. 이 섹션에서는 데이터를 정리하고 입력 품질을 개선하며 런타임 오류를 방지하는 데 도움이 되는 Machine Learning Studio(클래식)의 도구에 대한 링크를 제공합니다.
데이터 탐색 및 데이터 품질
데이터가 올바른 종류의 데이터, 적절한 수량 및 선택한 알고리즘에 적합한 품질인지 확인합니다. 가지고 있는 데이터의 양과 분산 방법을 이해합니다. 이상값이 있습니까? 어떻게 생성되었고, 무엇을 의미합니까? 중복 레코드가 있습니까?
누락된 값 처리
누락된 값은 다양한 방식으로 결과에 영향을 줄 수 있습니다. 예를 들어 거의 모든 통계 방법은 누락된 값이 있는 사례를 무시합니다. 기본적으로 Machine Learning 값이 누락된 행을 발견할 때 다음 규칙을 따릅니다.
모델을 학습하는 데 사용된 데이터에 누락된 값이 있는 경우 누락된 값이 있는 모든 행을 건너뜁니다.
모델에 대해 채점할 때 입력으로 사용되는 데이터에 누락된 값이 있으면 누락된 값이 입력으로 사용되지만 null이 전파됩니다. 이는 일반적으로 null이 유효한 예측 대신 결과에 삽입됨을 의미합니다.
모델을 학습하기 전에 데이터를 확인해야 합니다. 누락된 값을 표시하거나 데이터를 수정하려면 다음 모듈을 사용합니다.
기능 선택 및 차원 감소
Machine Learning Studio(클래식)는 데이터를 선별하여 가장 유용한 특성을 찾는 데 도움이 될 수 있습니다.
Fisher Linear Discriminant Analysis 또는 Filter Based Feature Selection과 같은 도구를 사용하여 예측 능력이 가장 큰 데이터 열을 결정합니다. 이러한 도구는 데이터 유출로 인해 제거해야 하는 열을 식별할 수도 있습니다.
기존 데이터에서 기능을 만들거나 설계합니다. 데이터를 정규화 하거나 데이터를 bin으로 그룹 화하여 데이터의 새 그룹을 만들거나 분석 전에 숫자 값 범위를 표준화합니다.
범주 값을 그룹화하거나, 주 구성 요소 분석을 사용하거나, 샘플링하여 차원을 줄입니다.
예
작동 중인 기계 학습의 예는 Azure AI 갤러리를 참조하세요.
팁과 몇 가지 일반적인 데이터 사전 작업 연습은 팀 데이터 과학 프로세스를 실행하는 연습을 참조하세요.