스윕 클러스터링
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
매개 변수 스윕을 수행하여 클러스터링 모델에 대한 최적의 설정을 확인합니다.
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)에서 스윕 클러스터링 모듈을 사용하여 매개 변수 스윕을 사용하여 모델을 학습시키는 방법을 설명합니다. 매개 변수 스윕은 데이터 집합을 고려하여 모델에 가장 적합한 하이퍼 매개 변수를 찾는 방법입니다.
스윕 클러스터링 모듈은 클러스터링 모델을 위해 특별히 설계되었습니다. 데이터 세트와 함께 클러스터링 모델을 입력으로 제공합니다. 이 모듈은 가장 적합한 클러스터 집합이 있는 모델을 발견할 때까지 지정한 매개 변수 집합을 반복하여 서로 다른 매개 변수를 사용하여 모델을 빌드하고 테스트합니다. 최상의 구성을 자동으로 계산한 다음 해당 구성을 사용하여 모델을 학습합니다.
또한 테스트된 모델을 설명하는 메트릭 집합과 최상의 모델을 기반으로 하는 클러스터 할당 집합을 반환합니다.
스윕 클러스터링을 구성하는 방법
Studio(클래식)에서 실험에 스윕 클러스터링 모듈을 추가합니다. 학습 범주의Machine Learning 아래에서 이 모듈을 찾을 수 있습니다.
K-평균 클러스터링 모듈과 학습 데이터 세트를 실험에 추가하고 둘 다 스윕 클러스터링 모듈에 연결합니다.
다음과 같이 매개 변수 스윕 을 사용하도록 K-Means 클러스터링 모듈을 구성합니다.
트레이너 만들기 모드를 매개 변수 범위로 설정합니다.
각 매개 변수에 대해 Range Builder (또는 여러 값을 수동으로 입력)를 사용하여 반복할 값 범위를 설정합니다.
스윕 초기화: K-평균 알고리즘에서 초기 클러스터 중심을 찾는 방법을 지정합니다. 원심을 임의로 초기화한 다음 테스트하기 위해 여러 알고리즘이 제공됩니다.
학습 데이터 세트에 부분 값이 있더라도 레이블 열이 포함된 경우 중심도에 해당 값을 사용할 수 있습니다. 레이블 모드 할당 옵션을 사용하여 레이블 값이 사용되는 방식을 나타냅니다.
팁
레이블 열은 미리 표시되어야 합니다. 오류가 발생하면 메타데이터 편집 을 사용하여 레이블이 포함된 열을 식별해 보세요.
스윕할 시드 수: 매개 변수 스윕을 수행할 때 시도할 다른 임의 시작 시드 수를 나타냅니다.
클러스터 유사성을 측정할 때 사용할 메트릭을 선택합니다. 자세한 내용은 K-평균 클러스터링 항목을 참조하세요.
반복: K-평균 알고리즘이 수행해야 하는 총 반복 수를 지정합니다. 이러한 반복은 클러스터 중심 선택 영역을 최적화하는 데 사용됩니다.
레이블 열을 사용하여 스윕을 초기화하는 경우 레이블 모드 할당 옵션을 사용하여 레이블 열의 값을 처리하는 방법을 지정합니다.
누락된 값 채우기: 레이블 열에 누락된 값이 포함된 경우 이 옵션을 사용하여 데이터 요소가 할당된 클러스터에 따라 범주를 대체합니다.
가장 가까운 지점에서 가운데로 덮어쓰기: 클러스터 중앙에 가장 가까운 지점의 레이블을 사용하여 클러스터에 할당된 모든 데이터 요소에 대한 레이블 값을 생성합니다.
레이블 열 무시: 위의 작업 중 하나를 수행하지 않으려면 이 옵션을 선택합니다.
스윕 클러스터링 모듈에서 클러스터링 결과를 측정하기 위한 메트릭의 경우 옵션을 사용하여 학습된 클러스터링 모델의 적합도를 예측할 때 사용할 수학적 방법을 지정합니다.
간소화된 실루엣: 이 메트릭은 각 클러스터 내에서 데이터 요소의 압박감을 캡처합니다. 클러스터와 각 행의 유사성과 다음으로 가장 가까운 클러스터와의 유사성의 조합으로 계산됩니다. 클러스터에 행이 1개만 있는 경우 그 결과로 0이 되는 것을 방지하기 위해 가장 가까운 중심선까지의 비례 배분 거리가 대신 계산됩니다. "간체"는 클러스터 중심까지의 거리가 간단한 유사성 측정값으로 사용된다는 사실을 나타냅니다. 일반적으로 더 높은 점수가 더 좋습니다. 데이터 세트의 평균 값은 데이터가 얼마나 잘 클러스터되었는지를 나타냅니다. 클러스터가 너무 많거나 너무 적은 경우 일부 클러스터는 나머지 클러스터보다 실루엣 값이 낮습니다. 자세한 내용은 이 Wikipedia 문서를 참조하세요.
Davies-Bouldin: 이 메트릭은 가장 작은 분산형 클러스터 집합을 식별하는 것을 목표로 합니다. 메트릭은 클러스터 분리를 통해 각 클러스터 내의 분산 비율로 정의되므로 값이 낮을수록 클러스터링이 더 좋습니다. 최상의 클러스터링 모델은 이 메트릭을 최소화합니다. Davies-Bouldin 메트릭을 계산하기 위해 클러스터당 평균 행에서 중심까지의 거리가 계산됩니다. 클러스터의 각 쌍에 대해 해당 평균의 합계는 중심 사이의 거리로 나뉩니다. 다른 모든 클러스터에 대한 최대 값은 각 클러스터에 대해 선택되고 모든 클러스터에 대해 평균됩니다. 자세한 내용은 이 Wikipedia 문서를 참조하세요.
Dunn: 이 메트릭은 가장 작은 소형 클러스터 집합을 식별하는 것을 목표로 합니다. 일반적으로 이 메트릭의 값이 높을수록 클러스터링이 향상됩니다. Dunn 메트릭을 계산하기 위해 최소 중심에서 중심까지의 거리는 클러스터 중심까지의 각 데이터 요소의 최대 거리로 나뉩니다. 자세한 내용은 이 Wikipedia 문서를 참조하세요.
평균 편차: 이 메트릭은 각 데이터 요소에서 클러스터 센터로의 평균 거리를 가져와 계산됩니다. 중심이 늘어나면 값이 감소합니다. 따라서 원심의 수를 찾기 위해 스윕하는 경우 유용하지 않습니다. 이 메트릭은 최상의 중심 초기화 초기화를 선택할 때 사용하는 것이 좋습니다.
매개 변수 비우기 모드 지정: 학습 시 사용되는 값의 조합과 선택한 방법을 정의하는 옵션을 선택합니다.
전체 표: 지정된 범위 내의 모든 값이 시도되고 평가됩니다. 이 옵션은 일반적으로 계산 비용이 더 많이 듭니다.
임의 스윕: 실행 수를 제한하려면 이 옵션을 사용합니다. 클러스터링 모델은 허용되는 매개 변수 값 범위에서 임의로 선택한 값의 조합을 사용하여 빌드 및 평가됩니다.
임의 스윕 시 최대 실행 수: 임의 스윕 옵션을 선택하는 경우 이 옵션을 설정합니다. 임의로 선택한 매개 변수 집합을 테스트할 때 반복의 최대 수를 제한하는 값을 입력합니다.
경고
K-평균 클러스터링 모듈의 반복 매개 변수는 다른 용도를 가지며 이 설정의 영향을 받지 않습니다. 각 데이터 요소에서 클러스터 중심까지의 평균 거리를 최소화하여 클러스터를 개선하기 위해 만들어진 데이터에 대한 전달 횟수를 제한합니다. 반면, 스윕 클러스터링 모듈 매개 변수로 정의된 반복은 다른 임의 중심 초기화를 시도하기 위해 수행됩니다. 이 최소화 문제는 NP 하드로 알려져 있습니다. 따라서 여러 임의 씨앗을 시도하면 더 나은 결과를 생성할 수 있습니다.
임의 스윕을 선택하는 경우 임의 시드 옵션을 사용하여 초기 임의 시드 값을 지정하여 중심을 만들기 시작합니다. 매개 변수 스윕을 사용하여 클러스터링 모델을 만들면 여러 시드 값을 쉽게 테스트하여 클러스터링 모델의 알려진 민감도를 초기 시드 값으로 완화할 수 있다는 장점이 있습니다.
열 집합을 클릭하고 클러스터를 빌드할 때 사용할 열을 선택합니다. 기본적으로 모든 기능 열은 클러스터링 모델을 빌드하고 테스트할 때 사용됩니다.
데이터 세트에 있는 경우 레이블 열을 포함할 수 있습니다. 레이블이 있는 경우 이 레이블을 사용하여 중심선 선택을 안내하거나, 레이블을 기능으로 사용하거나, 레이블을 무시할 수 있습니다. 위의 3단계에서 설명한 대로 Kmeans 클러스터링 모듈을 처리하는 레이블에 대해 이러한 옵션을 설정합니다.
결과만 추가 또는 선택 취소 확인: 결과에 반환되는 열을 제어하려면 이 옵션을 사용합니다.
기본적으로 모듈은 학습 데이터 세트의 원래 열을 결과와 함께 반환합니다. 이 옵션을 선택 취소하는 경우 클러스터 할당만 반환됩니다.
클러스터에 데이터 할당 모듈을 실험에 추가합니다.
클러스터에 데이터 할당의 학습된 모델 입력에 가장 잘 학습된 모델로 레이블이 지정된 출력을 커넥트.
평가용 데이터 세트를 추가하고 클러스터에 데이터 할당 모듈의 데이터 세트 포트에 연결합니다.
모델 평가 모듈을 추가하고 클러스터에 데이터 할당에 연결합니다. 필요에 따라 평가 데이터 세트를 연결할 수 있습니다.
실험을 실행합니다.
결과
스윕 클러스터링 모듈은 다음과 같은 세 가지 결과를 출력합니다.
가장 잘 학습된 모델입니다. 채점 및 평가에 사용할 수 있는 학습된 모델입니다. 마우스 오른쪽 단추를 클릭하고 학습된 모델로 저장을 선택하여 최적화된 클러스터링 모델을 캡처하고 채점에 사용합니다.
결과 데이터 세트입니다. 최적화된 모델을 기반으로 하는 클러스터 할당 집합입니다.
열 이름 설명 할당 이 값은 각 데이터 포인트가 할당된 클러스터를 나타냅니다. 학습된 모델의 클러스터는 0 기반 인덱스로 레이블이 지정됩니다. DistancesToClusterCenter No.1
DistancesToClusterCenter no.n이 값은 데이터 포인트가 각 클러스터의 중앙에 얼마나 가까운지를 나타냅니다.
최적화된 모델에서 만든 각 클러스터에 대해 열이 만들어집니다.
중심 수 옵션을 사용하여 클러스터 수를 제한 할 수 있습니다 .기본적으로 학습 데이터 세트의 열을 결과와 함께 반환하여 클러스터 할당을 보다 쉽게 검토하고 해석할 수 있습니다.
결과를 비우기. 클러스터에 대한 다음 평가 메트릭을 포함하는 데이터 세트입니다.
열 이름 설명 클러스터 메트릭 해당 실행의 평균 클러스터 품질을 나타내는 값입니다. 실행은 최상의 점수로 정렬됩니다. 중심선 수 스윕의 이 특정 반복에서 생성된 클러스터 수 실행 인덱스 각 반복에 대한 식별자 팁
클러스터 메트릭에 대해 반환된 값은 스윕을 설정할 때 선택한 메트릭에 따라 다르게 해석되어야 합니다. 기본 메트릭인 단순화된 실루엣의 경우 더 높은 점수가 더 좋습니다. 데이비스 불딘의 경우, 낮은 점수가 더 낫다.
예
K-평균 클러스터링을 사용하여 매개 변수 스윕 예제를 보려면 Azure AI 갤러리를 참조하세요.
기술 정보
이 섹션에는 팁과 구현 세부 정보가 포함되어 있습니다.
클러스터링 모델 최적화
클러스터링 모델의 품질과 정확도는 클러스터를 초기화하는 데 사용되는 초기 매개 변수 수 및 초기화 값과 같은 초기 매개 변수의 선택에 큰 영향을 받을 수 있습니다. 초기 매개 변수에 대한 이러한 민감도를 완화하기 위해 스윕 클러스터링 모듈을 사용하면 최상의 매개 변수 조합을 찾을 수 있습니다. 테스트할 매개 변수 범위를 지정하면 모듈에서 여러 모델을 자동으로 빌드 및 테스트하고 마지막으로 최적의 클러스터 수를 선택합니다.
매개 변수 스윕을 만들려면 매개 변수 스윕을 사용하도록 K-평균 클러스터링 모듈도 구성해야 합니다. 스윕이 가능한 모든 매개 변수 조합을 반복하거나 임의의 매개 변수 조합을 사용하도록 지정할 수 있습니다. 반복 모델 빌드 및 테스트 프로세스 중에 중심점의 정확도를 측정하기 위한 몇 가지 표준 메트릭 중 하나를 선택할 수도 있습니다. 지정된 반복 횟수가 완료되면 모듈은 선택한 메트릭에 따라 가장 많은 클러스터를 선택하고 결과를 평가하는 데 사용할 수 있는 보고서를 출력합니다.
사용 팁
어떤 경우에는 찾을 것으로 예상되는 클러스터 수를 이미 알고 있을 수 있습니다. 예를 들어 데이터에는 중심선 선택을 안내하는 데 사용할 수 있는 클래스 레이블이 있을 수 있습니다. 이 경우 레이블 열을 사용하여 초기 중심선 선택을 안내하도록 K-평균 클러스터링 모듈을 구성할 수 있습니다.
예상되는 클러스터 중 일부를 알고 있지만 최적의 클러스터 수를 잘 모르는 경우 중심 수를 알려진 레이블 값 수보다 큰 숫자로 설정합니다. 스윕 클러스터링 모듈은 알려진 데이터 요소에 대한 클러스터를 만든 다음 나머지 데이터 요소에 대한 최적의 추가 클러스터 수를 결정합니다.
레이블 열에서 누락된 값 처리
레이블 열에서 누락된 값을 처리하는 방법에는 여러 가지가 있습니다. 예를 들어 이미지 분류 작업이 있고 일부 이미지만 레이블이 지정되었다고 가정합니다.
레이블 열을 사용하여 중심선 선택을 안내하지만 클러스터 할당을 사용하여 누락된 레이블을 채우도록 지정할 수 있습니다. 즉, 기존 레이블 값은 변경되지 않지만 누락된 레이블이 채워집니다.
또는 클러스터에 할당된 모든 데이터 요소의 경우 클러스터를 가장 잘 나타내는 단일 레이블을 사용하여 기존 레이블도 덮어쓸 수 있습니다. 이 옵션이 어떻게 도움이 되는지 이해하려면 다양한 개 품종과 같은 매우 자세한 레이블이 있는 이미지 데이터를 사용한다고 가정합니다. 이 옵션을 사용하면 모든 세부 레이블을 단일 범주 레이블인 "dog"로 바꿀 수 있습니다.
로그의 초기값
클러스터링 모델 학습 모듈에서 생성된 로그 파일은 임의 시드 속성에 제공된 시드에 관계없이 K-평균 클러스터링 알고리즘의 모든 반복에 동일한 시드가 사용됨을 나타내는 것으로 보입니다.
실제로 구현에서는 사용자가 제공한 시드를 사용하여 실행마다 다른 난수 시퀀스를 생성합니다. 따라서 임의로 생성된 모든 숫자를 만들려면 하나의 시드만 필요합니다.
로그의 의도는 사용자가 속성 창에서 시드를 지정하지 않을 때 모듈에서 사용하는 시드를 나타냅니다.
예상 입력
Name | 유형 | 설명 |
---|---|---|
학습되지 않은 모델 | ICluster 인터페이스 | 학습되지 않은 클러스터링 모델입니다. |
데이터 세트 | 데이터 테이블 | 입력 데이터 원본입니다. |
모듈 매개 변수
Name | Type | 값 | Optional | 기본값 | 설명 |
---|---|---|---|---|---|
클러스터링 결과를 측정하기 위한 메트릭 | 클러스터 메트릭 | 간소화된 실루엣, 데이비스 불딘, 던, 평균 편차 | 필수 | 간결한 실루엣 | 회귀 모델 평가에 사용되는 메트릭을 선택합니다. |
매개 변수 비우기 모드 지정 | 스윕 메서드 | 전체 그리드 또는 임의 스윕 | 필수 | 임의 비우기를 수행합니다. | 매개 변수 공간의 전체 표를 비우거나 제한된 수의 샘플 실행을 사용하여 비우기를 수행합니다. |
열 집합 | ColumnSelection | 필수 | 열 선택 패턴입니다. | ||
임의 비우기 시의 최대 실행 수 | 정수 | [1;10000] | SweepingMode가 임의 스윕으로 설정된 경우에만 사용할 수 있습니다. | 5 | 임의 스윕을 사용할 때 실행할 최대 실행 수 설정 |
무작위 초기값 | 정수 | SweepingMode가 임의 스윕으로 설정된 경우에만 사용할 수 있습니다. | 0 | 임의 스윕을 위해 난수 생성기를 시드하는 값을 제공합니다. | |
추가하려면 선택/결과만 출력하려면 선택 취소 | 부울 | 필수 | True | 출력 데이터 세트에 할당 열이 추가된 입력 데이터 세트가 포함되어야 함을 나타내려면 선택합니다. 할당 열만 출력되어야 함을 나타내려면 선택 취소합니다. |
출력
Name | 유형 | 설명 |
---|---|---|
가장 잘 학습된 모델 | ICluster 인터페이스 | 학습된 클러스터링 모델입니다. |
결과 데이터 집합 | 데이터 테이블 | 할당의 데이터 열이 추가되거나 할당 열만 포함된 입력 데이터 집합입니다. |
비우기 결과 | 데이터 테이블 | 클러스터 스윕 실행에 대한 결과 메트릭 로그 |
예외
예외 | 설명 |
---|---|
오류 0003 | 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.
참고 항목
K-Means 클러스터링
클러스터에 데이터 할당
Machine Learning / 기차
기계 학습/모델 초기화/클러스터링