자습서 2: 신용 위험 모델 학습 - Machine Learning Studio(클래식)
적용 대상: Machine Learning Studio(클래식) Azure Machine Learning
Important
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대해 자세히 알아보세요.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
이 자습서에서는 예측 분석 솔루션을 개발하는 프로세스를 확장적으로 살펴봅니다. Machine Learning Studio(클래식)에서 간단한 모델을 개발합니다. 그런 다음, 모델을 Machine Learning 웹 서비스로 배포합니다. 배포된 이 모델은 새 데이터를 사용하여 예측을 수행할 수 있습니다. 이 자습서는 3부로 구성된 자습서 시리즈 중 제2부입니다.
신용대출 지원 시 애플리케이션에서 제공한 정보를 기반으로 개인의 신용 위험을 예측해야 한다고 가정합니다.
신용 위험 평가는 복잡한 문제이지만 이 자습서에서는 약간 간소화합니다. 이 신용 위험 평가는 Machine Learning Studio(클래식)를 사용하는 예측 분석 솔루션을 만드는 방법의 예로 사용합니다. 이 솔루션에는 Machine Learning Studio(클래식) 및 Machine Learning 웹 서비스를 사용합니다.
이 세 부분으로 구성된 자습서에서는 공개적으로 사용 가능한 신용 위험 데이터로 시작합니다. 그런 다음 예측 모델을 개발하고 학습합니다. 마지막으로 모델을 웹 서비스로 배포합니다.
자습서의 1부에서는 Machine Learning Studio(클래식) 작업 영역을 만들고, 데이터를 업로드하고, 실험을 만들었습니다.
자습서의 이 부분에서는 다음을 수행합니다.
- 여러 모델 학습
- 모델 점수 매기기 및 평가
자습서의 3부에서는 모델을 웹 서비스로 배포합니다.
필수 조건
자습서의 1부를 완료합니다.
여러 모델 학습
Machine Learning Studio(클래식)를 사용하여 기계 학습 모델을 만들 때의 이점 중 하나는 단일 실험에서 한 번에 둘 이상의 모델 유형을 시도하고 결과를 비교할 수 있다는 것입니다. 이러한 유형의 실험을 통해 문제에 가장 적합한 솔루션을 찾을 수 있습니다.
이 자습서에서 개발 중인 실험에서는 두 가지 유형의 모델을 만든 다음 점수 매기기 결과를 비교하여 최종 실험에서 사용할 알고리즘을 결정합니다.
선택할 수 있는 다양한 모델이 있습니다. 사용 가능한 모델을 보려면 모듈 팔레트에서 Machine Learning 노드를 확장한 다음 모델 초기화 및 그 아래에 있는 노드를 확장합니다. 이 실험에서는 2클래스 SVM(Support Vector Machine) 및 2클래스 향상된 의사 결정 트리 모듈을 선택할 것입니다.
이 실험에서는 2클래스 향상된 의사 결정 트리 모듈 및 2클래스 지원 벡터 머신 모듈을 추가할 것입니다.
2클래스 향상된 의사 결정 트리
먼저 향상된 의사 결정 트리 모델을 설정합니다.
모듈 팔레트에서 2클래스 향상된 의사 결정 트리 모듈을 찾고 캔버스로 끌어서 놓습니다.
모델 학습 모듈을 찾아 캔버스로 끌어온 다음, 2클래스 향상된 의사 결정 트리 모듈의 출력을 모델 학습 모듈의 왼쪽 입력 포트에 연결합니다.
2클래스 향상된 의사 결정 트리 모듈은 제네릭 모델을 초기화하고 모델 학습은 학습 데이터를 사용하여 모델을 학습시킵니다.
왼쪽 R 스크립트 실행 모듈의 왼쪽 출력을 모델 학습 모듈의 오른쪽 입력 포트에 연결합니다(이 자습서에서는 학습을 위해 데이터 분할 모듈의 왼쪽에서 오는 데이터를 사용함).
팁
이 실험에서는 R 스크립트 실행 모듈의 입력 중 두 개와 출력 중 하나가 필요 없으므로 연결되지 않은 상태로 두면 됩니다.
이제 실험의 이 부분은 다음과 같이 표시됩니다.
이제 모델을 통해 신용 위험 값을 예측할 것임을 모델 학습 모듈에 전달해야 합니다.
모델 학습 모듈을 선택합니다. 속성 창에서 열 선택기 시작을 클릭합니다.
단일 열 선택 대화 상자에서 사용 가능한 열 아래의 검색 필드에 "신용 위험"을 입력하고 오른쪽 화살표 단추(>)를 클릭하여 "신용 위험"을 선택한 열로 이동합니다.
확인 확인 표시를 클릭합니다.
2클래스 지원 벡터 컴퓨터
다음으로 SVM 모델을 설정합니다.
먼저 SVM에 대한 약간의 설명입니다. 향상된 의사 결정 트리는 모든 유형의 기능과 잘 작동합니다. 그러나 SVM 모듈은 선형 분류자를 생성하므로 모든 숫자 기능의 크기가 같을 때 생성하는 모델에는 최상의 테스트 오류가 발생합니다. 모든 숫자 기능을 같은 크기로 변환하려면 "Tanh" 변환을 사용합니다(데이터 정규화 모듈과 함께). 그러면 숫자가 [0,1] 범위로 변환됩니다. SVM 모듈은 문자열 기능을 범주 기능으로 변환한 후 이진 0/1 기능으로 변환하므로 문자열 기능을 수동으로 변환할 필요가 없습니다. 또한 신용 위험 열(열 21)을 변환하지 않으려는 경우 숫자이지만 예측하도록 모델을 학습하는 값이므로 그대로 두어야 합니다.
SVM 모델을 설정하려면 다음을 수행합니다.
모듈 팔레트에서 2클래스 Support Vector Machine 모듈을 찾고 캔버스로 끌어서 놓습니다.
모델 학습 모듈을 마우스 오른쪽 단추로 클릭하고 복사를 선택한 다음 캔버스를 마우스 오른쪽 단추로 클릭하고 붙여넣기를 선택합니다. 모델 학습 모듈의 복사본에는 원본과 동일한 열 선택 항목이 있습니다.
2클래스 Support Vector Machine 모듈의 출력을 두 번째 모델 학습 모듈의 왼쪽 입력 포트에 연결합니다.
데이터 정규화 모듈을 찾아 캔버스로 끌어옵니다.
왼쪽 R 스크립트 실행 모듈의 왼쪽 출력을 이 모듈의 입력에 연결합니다(모듈의 출력 포트가 둘 이상의 다른 모듈에 연결될 수 있음).
이제 실험의 이 부분은 다음과 같이 표시됩니다.
이제 데이터 정규화 모듈을 구성합니다 .
데이터 정규화 모듈을 클릭하여 선택합니다. 속성 창에서 변환 메서드 매개 변수에 대해 Tanh를 선택합니다.
시작 열 선택기를 클릭하고 시작에 대해 "열 없음"을 선택하고, 첫 번째 드롭다운에서 포함을 선택하고, 두 번째 드롭다운에서 열 형식을 선택하고, 세 번째 드롭다운에서 숫자를 선택합니다. 이렇게 하면 모든 숫자 열(및 숫자만)이 변환됩니다.
이 행의 오른쪽에 있는 더하기 기호(+)를 클릭하면 드롭다운 행이 만들어집니다. 첫 번째 드롭다운에서 제외를 선택하고, 두 번째 드롭다운에서 열 이름을 선택하고, 텍스트 필드에 "신용 위험"을 입력합니다. 이는 신용 위험 열을 무시하도록 지정합니다(이 열은 숫자이므로 제외하지 않은 경우 변환되므로 이 작업을 수행해야 함).
확인 확인 표시를 클릭합니다.
이제 데이터 정규화 모듈은 신용 위험 열을 제외한 모든 숫자 열에서 Tanh 변환을 수행하도록 설정됩니다.
모델 점수 매기기 및 평가
데이터 분할 모듈을 통해 구분된 테스트 데이터를 사용하여 학습된 모듈을 채점합니다. 그런 다음 두 모델의 결과를 비교하여 더 나은 결과를 생성한 결과를 확인할 수 있습니다.
모델 점수 매기기 모듈 추가
모델 점수 매기기 모듈을 찾아 캔버스로 끌어옵니다.
2클래스 향상된 의사 결정 트리 모듈에 연결되어 있는 모델 학습l 모듈을 모델 점수 매기기 모듈의 왼쪽 입력 포트에 연결합니다.
모델 점수 매기기 모듈의 오른쪽 입력 포트에 오른쪽 R 스크립트 실행 모듈(테스트 데이터)을 연결합니다.
모델 점수 매기기 모듈에서 테스트 데이터의 신용 정보를 사용하고, 모듈을 통해 실행하고, 모델이 생성하는 예측을 테스트 데이터의 실제 신용 위험 열과 비교할 수 있습니다.
모델 점수 매기기 모듈을 복사하여 붙여넣어 두 번째 복사본을 만듭니다.
SVM 모델의 출력(즉, 2클래스 Support Vector Machine 모듈에 연결된 모델 학습 모듈의 출력 포트)을 두 번째 모델 점수 매기기 모듈의 입력 부분에 연결합니다.
SVM 모델의 경우 학습 데이터와 동일한 변환을 테스트 데이터에 수행해야 합니다. 따라서 데이터 정규화 모듈을 복사하여 붙여넣어 두 번째 복사본을 만들고 올바른 R 스크립트 실행 모듈에 연결합니다.
두 번째 모델 점수 매기기 모듈의 오른쪽 입력 포트에 두 번째 데이터 정규화 모듈의 왼쪽 출력을 연결합니다.
모델 평가 모듈 추가
두 점수 매기기 결과를 평가하고 비교하려면 모델 평가 모듈을 사용합니다.
모델 평가 모듈을 찾아 캔버스로 끌어옵니다.
모델 평가 모듈의 왼쪽 입력 포트에 향상된 의사 결정 트리 모델과 연결된 모델 점수 매기기 모듈의 출력 포트를 연결합니다.
다른 모델 점수 매기 기 모듈을 오른쪽 입력 포트에 연결합니다.
실험을 실행하고 결과를 확인합니다.
실험을 실행하려면 캔버스 아래의 실행 단추를 클릭합니다. 몇 분이 걸릴 수 있습니다. 각 모듈의 회전 표시기는 실행 중임을 표시한 다음 모듈이 완료되면 녹색 확인 표시가 표시됩니다. 모든 모듈에 확인 표시가 있으면 실험 실행이 완료되었습니다.
이제 실험은 다음과 같이 표시됩니다.
결과를 확인하려면 모델 평가 모듈의 출력 포트를 클릭하고 시각화를 선택합니다.
모델 평가 모듈에서는 점수를 매긴 모델 두 개의 결과를 비교할 수 있는 곡선 및 메트릭 쌍을 생성합니다. 결과를 ROC(Receiver Operator Characteristic) 곡선, 정밀도/리콜 곡선 또는 리프트 곡선으로 볼 수 있습니다. 표시되는 추가 데이터에는 혼동 행렬, AUC(곡선 아래 영역의 누적 값) 및 기타 메트릭이 포함됩니다. 슬라이더를 왼쪽이나 오른쪽으로 이동하여 임계값을 변경하고 메트릭 집합에 미치는 영향을 확인할 수 있습니다.
그래프 오른쪽에서 점수 매기기 데이터 세트 또는 점수 매기기 데이터 세트를 클릭하여 연결된 곡선을 강조 표시하고 아래에 연결된 메트릭을 표시합니다. 곡선의 범례에서 "점수가 매길 데이터 세트"는 모델 평가 모듈의 왼쪽 입력 포트에 해당합니다. 이 경우 향상된 의사 결정 트리 모델입니다. "비교할 점수를 매긴 데이터 세트"는 오른쪽 입력 포트(이 경우 SVM 모델)에 해당합니다. 이러한 레이블 중 하나를 클릭하면 다음 그래픽과 같이 해당 모델의 곡선이 강조 표시되고 해당 메트릭이 표시됩니다.
이러한 값을 검사하여 원하는 결과를 제공하는 데 가장 가까운 모델을 결정할 수 있습니다. 돌아가서 다른 모델에서 매개 변수 값을 변경하여 실험을 반복할 수 있습니다.
이러한 결과를 해석하고 모델 성능을 조정하는 과학 및 기술은 이 연습의 범위를 벗어납니다. 추가 도움말을 보려면 다음 문서를 참조하세요.
- Machine Learning Studio(클래식)에서 모델 성능을 평가하는 방법
- Machine Learning Studio(클래식)에서 알고리즘을 최적화하기 위한 매개 변수 선택
- Machine Learning Studio(클래식)에서 모델 결과 해석
팁
실험을 실행할 때마다 해당 반복에 대한 레코드가 실행 기록에서 유지됩니다. 캔버스 아래에서 실행 기록 보기를 클릭하여 이러한 반복을 보고 해당 반복으로 돌아갈 수 있습니다. 속성 창에서 이전 실행을 클릭하여 열었던 반복의 바로 이전 반복으로 돌아갈 수도 있습니다.
캔버스 아래에서 AS 저장을 클릭하여 실험의 반복 복사본을 만들 수 있습니다. 실험의 요약 및 설명 속성을 사용하여 실험 반복에서 시도한 내용에 대한 레코드를 유지합니다.
자세한 내용은 Machine Learning Studio(클래식)에서 실험 반복 관리를 참조하세요.
리소스 정리
이 문서를 사용하여 만든 리소스가 더 이상 필요하지 않은 경우 요금이 발생하지 않도록 삭제합니다. 문서에서 제품 내 사용자 데이터 내보내기 및 삭제 방법을 알아봅니다.
다음 단계
이 자습서에서는 다음 단계를 완료했습니다.
- 실험 만들기
- 여러 모델 학습
- 모델 점수 매기기 및 평가
이제 이 데이터에 대한 모델을 배포할 준비가 되었습니다.