Machine Learning Studio(클래식)에서 모델 결과 해석

아티클
11/29/2017

적용 대상: 이는 이 문서가 Machine Learning Studio(클래식)에 적용된다는 것을 의미하는 확인 표시입니다. Machine Learning Studio(클래식) X입니다. 즉, 이 문서는 Azure Machine Learning에 적용되지 않습니다. Azure Machine Learning

Important

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
Azure Machine Learning에 대해 자세히 알아보세요.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 항목에서는 Machine Learning Studio(클래식)에서 예측 결과를 시각화하고 해석하는 방법을 설명합니다. 모델을 학습하고 그 위에 예측을 수행한 후("모델 점수 매기기") 예측 결과를 이해하고 해석해야 합니다.

Machine Learning Studio(클래식)에는 4가지 주요 기계 학습 모델이 있습니다.

분류
Clustering
회귀
추천 시스템

이러한 모델을 기반으로 예측에 사용되는 모듈은 다음과 같습니다.

ML Studio(클래식)에서 알고리즘을 최적화하기 위해 매개 변수를 선택하는 방법을 알아봅니다.

모델을 평가하는 방법에 대한 자세한 내용은 모델 성능을 평가하는 방법을 참조하세요.

ML 스튜디오(클래식)을 처음 접하는 경우 간단한 실험을 만드는 방법을 알아보세요.

분류

분류 문제의 하위 범주는 다음 두 가지가 있습니다.

두 클래스의 문제(2클래스 또는 이진 분류)
두 개 이상의 클래스 문제(다중 클래스 분류)

Machine Learning Studio(클래식)에는 각 분류 유형을 처리하는 다양한 모듈이 있지만 예측 결과를 해석하는 방법은 비슷합니다.

2클래스 분류

예제 실험

2클래스 분류 문제의 예로는 홍채 꽃 분류가 있습니다. 이 작업은 특징에 따라 홍채 꽃을 분류하는 것입니다. Machine Learning Studio(클래식)에서 제공되는 아이리스 데이터 세트는 꽃 종 2개(클래스 0 및 1)의 인스턴스를 포함하는 인기 있는 아이리스 데이터 집합 의 하위 집합입니다. 각 꽃에 대한 네 가지 기능이 있습니다 (세팔 길이, 서팔 너비, 꽃잎 길이, 꽃잎 너비).

붓꽃 실험의 스크린샷

그림 1 붓꽃 2클래스 분류 문제 실험

그림 1에 표시된 대로 이 문제를 해결하기 위해 실험을 수행했습니다. 2클래스의 향상된 의사 결정 트리 모델이 학습되어 점수가 지정되었습니다. 이제 모델 점수 매기기 모듈의 출력 포트를 클릭한 다음 시각화를 클릭하여 모델 점수 매기기 모듈에서 예측 결과를 시각화할 수 있습니다.

모델 점수 매기기 모듈

그러면 그림 2에 표시된 대로 점수 매기기 결과가 표시됩니다.

홍채 2클래스 분류 실험 결과

그림 2. 2클래스 분류에서 점수 모델 결과 시각화

결과 해석

결과 테이블에는 6개의 열이 있습니다. 왼쪽 네 개의 열은 네 가지 기능입니다. 오른쪽 두 열인 점수가 매표된 레이블과 점수가 매깁니다. 점수가 매칭된 확률 열은 꽃이 양수 클래스(클래스 1)에 속할 확률을 보여 줍니다. 예를 들어 열의 첫 번째 숫자(0.028571)는 첫 번째 꽃이 클래스 1에 속할 확률이 0.028571임을 나타냅니다. 점수가 매표된 레이블 열에는 각 꽃에 대한 예측 클래스가 표시됩니다. 점수가 매기된 확률 열에 따라 달라집니다. 꽃의 점수가 매칭된 확률이 0.5보다 크면 클래스 1로 예측됩니다. 그렇지 않으면 클래스 0으로 예측됩니다.

웹 서비스 게시

예측 결과를 이해하고 판단한 후 실험을 웹 서비스로 게시하여 다양한 애플리케이션에 배포하고 호출하여 새 홍채 꽃에 대한 클래스 예측을 얻을 수 있습니다. 학습 실험을 점수 매기기 실험으로 변경하고 웹 서비스로 게시하는 방법을 알아보려면 자습서 3: 신용 위험 모델 배포를 참조하세요. 이 절차는 그림 3과 같이 점수 매기기 실험을 제공합니다.

점수 매기기 실험의 스크린샷

그림 3. 홍채 2클래스 분류 문제 실험 채점

이제 웹 서비스의 입력 및 출력을 설정해야 합니다. 입력은 붓꽃 기능 입력인 점수 모델의 올바른 입력 포트입니다. 출력 선택은 예측 클래스(점수가 매칭된 레이블), 점수가 매칭된 확률 또는 둘 다에 관심이 있는지 여부에 따라 달라집니다. 이 예에서는 둘 다에 관심이 있다고 가정합니다. 원하는 출력 열을 선택하려면 데이터 집합 모듈에서 열 선택 모듈을 사용합니다. 데이터 집합의 열 선택 모듈을 클릭하고, 열 선택기 시작을 클릭한 다음 점수가 매겨진 레이블 및 점수가 매겨진 확률을 선택합니다. 데이터 집합에서 열 선택의 출력 포트를 설정하고 다시 실행한 후에는 웹 서비스 게시를 클릭하여 점수 매기기 실험을 웹 서비스로 게시할 준비가 된 것입니다. 최종 실험은 그림 4와 같습니다.

붓꽃 2클래스 분류 실험

그림 4. 홍채 2클래스 분류 문제의 최종 점수 매기기 실험

웹 서비스를 실행하고 테스트 인스턴스의 특징 값을 입력하면 결과에 두 숫자가 반환됩니다. 첫 번째 숫자는 점수가 매겨진 레이블이고, 두 번째는 점수가 매겨진 확률입니다. 이 꽃은 0.9655 확률을 가진 클래스 1로 예측됩니다.

모델 점수 매기기 테스트 해석

점수 매기기 테스트 결과

그림 5. 홍채 2클래스 분류의 웹 서비스 결과

다중 클래스 분류

예제 실험

이 실험에서는 다중 클래스 분류의 예로 문자 인식 작업을 수행합니다. 분류자는 손으로 쓴 이미지에서 추출된 일부 손으로 쓴 특성 값을 기반으로 특정 문자 %28class%29를 예측하려고 시도합니다.

문자 인식 예제

학습 데이터에는 손으로 쓴 편지 이미지에서 추출된 16가지 기능이 있습니다. 26개 문자가 26개 클래스를 형성합니다. 그림 6에서는 문자 인식에 대한 다중 클래스 분류 모델을 학습시키고 테스트 데이터 집합에서 동일한 기능 집합을 예측하는 실험을 보여줍니다.

문자 인식 다중 클래스 분류 실험

그림 6. 문자 인식 다중 클래스 분류 문제 실험

모델 점수 매기기 모듈의 출력 포트를 클릭한 다음 시각화를 클릭하여 모델 점수 매기기 모듈의 결과를 시각화하면 그림 7과 같이 콘텐츠가 표시됩니다.

모델 점수 매기기 결과

그림 7. 다중 클래스 분류에서 점수 모델 결과 시각화

결과 해석

왼쪽에 있는 16개의 열이 테스트 집합의 기능 값을 나타냅니다. 클래스 “XX”의 점수가 매겨진 확률이라고 이름이 지정된 열은 2클래스 사례의 점수가 매겨진 확률 열과 같습니다. 해당 항목이 특정 클래스에 속할 확률을 보여줍니다. 예를 들어 첫 번째 항목의 경우 "A", 0.000451 확률은 "B" 등인 0.003571 확률이 있습니다. 마지막 열(점수가 매기된 레이블)은 2클래스 사례에서 채점된 레이블과 동일합니다. 점수가 가장 큰 확률을 가진 클래스를 해당 항목의 예측 클래스로 선택합니다. 예를 들어, 첫 번째 항목에서 가장 큰 확률은 “F”(0.916995)이므로 점수가 매겨진 레이블은 “F”입니다.

웹 서비스 게시

각 항목에 대해 점수가 매표된 레이블과 점수가 매표된 레이블의 확률을 가져올 수도 있습니다. 기본 논리는 점수가 매기된 모든 확률 중에서 가장 큰 확률을 찾는 것입니다. 이렇게 하려면 R 스크립트 실행 모듈을 사용해야 합니다. R 코드는 그림 8에 표시되고 실험 결과는 그림 9에 표시됩니다.

R 코드 예제

그림 8. 점수가 매겨진 레이블 및 레이블의 관련 확률을 추출하기 위한 R 코드

실험 결과

그림 9. 문자 인식 다중 클래스 분류 문제의 최종 점수 매기기 실험

웹 서비스를 게시하고 실행하고 일부 입력 기능 값을 입력하면 반환된 결과는 그림 10과 같습니다. 16개의 기능이 추출된 이 필기 문자는 0.9715 확률로 “T”인 것으로 예측됩니다.

테스트 해석 점수 모듈

테스트 결과

그림 10. 다중 클래스 분류의 웹 서비스 결과

회귀

회귀 문제는 분류 문제와 다릅니다. 분류 문제에서는 홍채 꽃이 속한 클래스와 같은 불연속 클래스를 예측하려고 합니다. 하지만 회귀 문제에서는 다음 예에서 볼 수 있듯이, 자동차 가격과 같은 연속 변수에 대해 예측하려고 합니다.

예제 실험

회귀를 위한 예로 자동차 가격 예측을 사용합니다. 메이크, 연료 유형, 차체 유형 및 드라이브 휠을 포함한 기능에 따라 자동차 가격을 예측하려고 합니다. 실험은 그림 11에 나와 있습니다.

자동차 가격 회귀 실험

그림 11. 자동차 가격 회귀 문제 실험

모델 점수 매기기 모듈을 시각화하면 결과는 그림 12와 같습니다.

자동차 가격 예측 문제의 점수 매기기 결과

그림 12. 자동차 가격 예측 문제에 대한 점수 매기기 결과

결과 해석

이 점수 매기기 결과에서 점수가 매겨진 레이블이 결과 열입니다. 숫자는 각 자동차의 예상 가격입니다.

웹 서비스 게시

회귀 실험을 웹 서비스에 게시하고 2클래스 분류 사용 사례와 동일한 방식으로 자동차 가격 예측을 호출할 수 있습니다.

자동차 가격 회귀 문제에 대한 점수 매기기 실험

그림 13. 자동차 가격 회귀 문제의 점수 매기기 실험

웹 서비스를 실행하면 반환된 결과는 그림 14와 같습니다. 이 자동차의 예상 가격은 $15,085.52입니다.

점수 매기기 모듈 테스트 해석

점수 매기기 모듈 결과

그림 14. 자동차 가격 회귀 문제의 웹 서비스 결과

Clustering

예제 실험

붓꽃 데이터 집합을 다시 사용하여 클러스터링 실험을 빌드해 보겠습니다. 여기서는 기능만 있고 클러스터링에 사용할 수 있도록 데이터 집합의 클래스 레이블을 필터링할 수 있습니다. 이 붓꽃 사용 사례에서는 학습 프로세스 중에 클러스터의 수를 2로 지정합니다. 즉, 꽃을 2클래스로 클러스터링합니다. 실험은 그림 15에 표시됩니다.

아이리스 클러스터링 문제 실험

그림 15. 아이리스 클러스터링 문제 실험

클러스터링 자체는 학습 데이터 집합에 근거리 레이블이 없다는 점에서 분류와 다릅니다. 클러스터링에서는 학습 데이터 집합 인스턴스를 고유한 클러스터로 그룹화합니다. 학습 프로세스 중에 모델에서 해당 특징 사이의 차이점을 학습하여 항목의 레이블을 지정합니다. 그런 다음 학습된 모델을 사용하여 향후 항목을 추가로 분류할 수 있습니다. 클러스터링 문제 내에서 관심 있는 결과의 두 부분이 있습니다. 첫 번째 부분은 학습 데이터 집합에 레이블을 지정하고, 두 번째 부분은 학습된 모델을 사용하여 새 데이터 집합을 분류하는 것입니다.

결과의 첫 번째 부분은 클러스터링 모델 학습 모듈의 왼쪽 출력 포트를 클릭하고 시각화를 클릭하여 시각화할 수 있습니다. 시각화는 그림 16에 나와 있습니다.

클러스터링 결과

그림 16. 학습 데이터 집합의 클러스터링 결과 시각화

학습된 클러스터링 모델을 사용하여 새 항목을 클러스터링하는 두 번째 부분의 결과는 그림 17에 나와 있습니다.

클러스터링 결과 시각화

그림 17. 새 데이터 집합에서 클러스터링 결과 시각화

결과 해석

두 부분의 결과는 서로 다른 실험 단계에서 비롯되지만 동일하게 보이고 동일한 방식으로 해석됩니다. 처음 네 개의 열은 기능입니다. 마지막 열인 할당은 예측 결과입니다. 동일한 번호가 할당된 항목은 동일한 클러스터에 있을 것으로 예측됩니다. 즉, 어떤 식으로든 유사성을 공유합니다(이 실험에서는 기본 유클리드 거리 메트릭을 사용). 클러스터 수를 2로 지정했기 때문에 할당의 항목은 0 또는 1로 레이블이 지정됩니다.

웹 서비스 게시

클러스터링 실험을 웹 서비스에 게시하고 2클래스 분류 사용 사례와 동일한 방식으로 클러스터링 예측을 호출할 수 있습니다.

홍채 클러스터링 문제에 대한 점수 매기기 실험