개수 변환 작성
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
여러 데이터 세트에 변환을 적용할 수 있도록 개수 테이블을 기능으로 변환하는 변환을 만듭니다.
범주: 개수가 있는 Learning
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)의 빌드 계산 변환 모듈을 사용하여 학습 데이터를 분석하는 방법을 설명합니다. 이 데이터에서 모듈은 예측 모델에서 사용할 수 있는 개수 기반 기능 집합뿐만 아니라 개수 테이블을 빌드합니다.
개수 테이블에는 지정된 레이블 열이 지정된 모든 기능 열의 공동 분포가 포함됩니다. 이러한 통계는 정보 값이 가장 많은 열을 결정하는 데 유용합니다. 개수 기반 기능화 는 이러한 기능이 원래 학습 데이터보다 더 간결하지만 가장 유용한 정보를 모두 캡처하기 때문에 유용합니다. 모듈 매개 변수를 사용하여 개수가 새 개수 기반 기능 집합으로 변환되는 방법을 사용자 지정할 수 있습니다.
개수를 생성하고 기능으로 변환한 후에는 관련 데이터를 다시 사용하기 위한 변환으로 프로세스를 저장할 수 있습니다. 새 개수 집합을 생성하지 않고도 기능 집합을 수정하거나 개수 및 기능을 다른 개수 및 기능 집합과 병합할 수도 있습니다.
카운트 기반 기능을 다시 사용하고 다시 적용하는 기능은 다음과 같은 시나리오에서 유용합니다.
- 데이터 세트의 적용 범위 또는 균형을 개선하기 위해 새 데이터를 사용할 수 있게 됩니다.
- 원래 개수와 기능은 다시 처리하지 않으려는 매우 큰 데이터 세트를 기반으로 했습니다. 개수를 병합하여 새 데이터로 업데이트할 수 있습니다.
- 실험에서 사용하는 모든 데이터 세트에 동일한 개수 기반 기능 집합이 적용되는지 확인하려고 합니다.
빌드 계산 변환을 구성하는 방법
데이터 세트에서 직접 개수 기반 기능 변환을 만들고 실험을 실행할 때마다 다시 실행할 수 있습니다. 또는 개수 집합을 생성한 다음 새 데이터와 병합하여 업데이트된 개수 테이블을 만들 수 있습니다.
-
이전에 개수를 만들지 않은 경우 여기에서 시작합니다. 빌드 계산 변환 모듈을 사용하여 개수 테이블을 만들고 기능 집합을 자동으로 생성합니다.
이 프로세스는 변환 적용 모듈을 사용하여 데이터 세트에 적용할 수 있는 기능 변환 을 만듭니다.
-
이전 데이터 세트에서 개수 테이블을 이미 생성한 경우 새 데이터에 대한 개수를 생성하거나 이전 버전의 Machine Learning 만든 기존 개수 테이블을 가져옵니다. 그런 다음, 두 개의 개수 테이블 집합을 병합합니다.
이 프로세스는 변환 적용 모듈을 사용하여 데이터 세트에 적용할 수 있는 새 기능 변환 을 만듭니다.
데이터 세트에서 개수 기반 기능 만들기
Machine Learning Studio(클래식)에서 실험에 빌드 계산 변환 모듈을 추가합니다. 데이터 변환의 범주 Learning Counts에서 모듈을 찾을 수 있습니다.
커넥트 개수 기반 기능의 기준으로 사용할 데이터 세트를 제공합니다.
클래스 수 옵션을 사용하여 레이블 열의 값 수를 지정합니다.
- 이진 분류 문제의 경우 .를 입력합니다
2
. - 가능한 출력이 3개 이상인 분류 문제의 경우에는 계산할 정확한 클래스 수를 사전에 지정해야 합니다. 실제 클래스 수보다 작은 숫자를 입력하면 모듈에서 오류를 반환합니다.
- 데이터 세트에 여러 클래스 값이 포함되어 있고 클래스 레이블 값이 순차적이지 않은 경우 메타데이터 편집 을 사용하여 열에 범주 값이 포함되도록 지정해야 합니다.
- 이진 분류 문제의 경우 .를 입력합니다
이 옵션의 경우 해시 함수의 비트는 값을 해시할 때 사용할 비트 수를 나타냅니다.
계산할 값이 많고 더 높은 비트 수가 필요할 수 있다는 것을 알지 못하면 일반적으로 기본값을 수락하는 것이 안전합니다.
해시 함수의 시드에서 해시 함수를 시드할 값을 선택적으로 지정할 수 있습니다. 시드를 수동으로 설정하는 작업은 일반적으로 동일한 실험의 실행에서 해시 결과가 결정적인지 확인하려는 경우에 수행됩니다.
모듈 유형 옵션을 사용하여 스토리지 모드에 따라 계산할 데이터 형식을 나타냅니다.
데이터 세트: Machine Learning Studio(클래식)에서 데이터 세트로 저장된 데이터를 계산하는 경우 이 옵션을 선택합니다.
Blob: 빌드 횟수에 사용되는 원본 데이터가 Windows Azure Storage에 블록 Blob으로 저장되는 경우 이 옵션을 선택합니다.
MapReduce: Map/Reduce 함수를 호출하여 데이터를 처리하려면 이 옵션을 선택합니다.
이 옵션을 사용하려면 새 데이터를 Windows Azure Storage에서 Blob으로 제공해야 하며 배포된 HDInsight 클러스터에 액세스할 수 있어야 합니다. 실험을 실행하면 클러스터에서 맵/축소 작업이 시작되어 계산을 수행합니다.
매우 큰 데이터 세트의 경우 가능하면 이 옵션을 사용하는 것이 좋습니다. HDInsight 서비스 사용에 추가 비용이 발생할 수 있지만 큰 데이터 집합에 대한 계산은 HDInsight에서 더욱 빠를 수 있습니다.
자세한 내용은 https://azure.microsoft.com/services/hdinsight/를 참조하세요.
데이터 스토리지 모드를 지정한 후 필요한 데이터에 대한 추가 연결 정보를 제공합니다.
- Hadoop 또는 Blob Storage의 데이터를 사용하는 경우 클러스터 위치 및 자격 증명을 제공합니다.
- 이전에 실험에서 데이터 가져오기 모듈을 사용하여 데이터에 액세스한 경우 계정 이름과 자격 증명을 다시 입력해야 합니다. Build Counting Transform 모듈은 데이터를 읽고 필요한 테이블을 빌드하기 위해 데이터 스토리지에 별도로 액세스합니다.
레이블 열 또는 인덱스인 경우 레이블 열로 한 열을 선택합니다.
레이블 열이 필요합니다. 열은 이미 레이블로 표시되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.
이 옵션을 사용하여 계산할 열을 선택하고 개수를 생성할 열을 선택합니다.
일반적으로 가장 적합한 후보는 해당 열과 상관 관계가 있는 다른 열과 함께 고차원 열입니다.
Count 테이블 형식 옵션을 사용하여 count 테이블을 저장하는 데 사용되는 형식을 지정합니다.
사전: 사전 개수 테이블을 만듭니다. 선택한 열의 모든 열 값은 문자열로 취급되고 크기가 최대 31비트인 비트 배열을 사용하여 해시됩니다. 따라서 모든 열 값은 음수가 아닌 32비트 정수도 표시됩니다.
일반적으로 더 작은 데이터 집합(1GB 미만)에 이 옵션을 사용하고 더 큰 데이터 세트에 CMSketch 옵션을 사용해야 합니다.
이 옵션을 선택한 후 해시 함수에서 사용하는 비트 수를 구성하고 해시 함수를 초기화하기 위한 시드를 설정합니다.
CMSketch: 개수 최소 스케치 테이블을 만듭니다. 이 옵션을 사용하면 범위가 작은 독립적인 여러 해시 함수가 메모리 효율성을 높이고 해시 충돌 가능성을 줄이는 데 사용됩니다. 해시 비트 크기 및 해시 시드에 대한 매개 변수는 이 옵션에 영향을 주지 않습니다.
실험을 실행합니다.
이 모듈은 변환 적용 모듈에 대한 입력으로 사용할 수 있는 기능화변환 을 만듭니다. 변환 적용 모듈의 출력은 모델을 학습시키는 데 사용할 수 있는 변환된 데이터 세트입니다.
필요에 따라 개수 기반 기능 집합을 다른 개수 기반 기능 집합과 병합하려는 경우 변환을 저장할 수 있습니다. 자세한 내용은 병합 개수 변환을 참조하세요.
여러 데이터 세트의 병합 개수 및 기능
Machine Learning Studio(클래식)에서 빌드 계산 변환 모듈을 실험에 추가하고 추가하려는 새 데이터가 포함된 데이터 세트를 연결합니다.
모듈 유형 옵션을 사용하여 새 데이터의 원본을 나타냅니다. 다른 원본의 데이터를 병합할 수 있습니다.
데이터 세트: 새 데이터가 Machine Learning Studio(클래식)에서 데이터 세트로 제공되는 경우 이 옵션을 선택합니다.
Blob: 새 데이터가 Windows Azure Storage에서 블록 Blob으로 제공되는 경우 이 옵션을 선택합니다.
MapReduce: Map/Reduce 함수를 호출하여 데이터를 처리하려면 이 옵션을 선택합니다.
이 옵션을 사용하려면 새 데이터를 Windows Azure Storage에서 Blob으로 제공해야 하며 배포된 HDInsight 클러스터에 액세스할 수 있어야 합니다. 실험을 실행하면 클러스터에서 맵/축소 작업이 시작되고 계산이 수행됩니다.
자세한 내용은 https://azure.microsoft.com/services/hdinsight/을 참조하세요.
데이터 스토리지 모드를 지정한 후 새 데이터에 대한 추가 연결 정보를 제공합니다.
Hadoop 또는 Blob Storage의 데이터를 사용하는 경우 클러스터 위치 및 자격 증명을 제공합니다.
이전에 실험에서 데이터 가져오기 모듈을 사용하여 데이터에 액세스한 경우 계정 이름과 자격 증명을 다시 입력해야 합니다. 그 이유는 빌드 계산 변환 모듈이 데이터를 읽고 필요한 테이블을 빌드하기 위해 데이터 스토리지에 별도로 액세스하기 때문입니다.
개수를 병합할 때 다음 옵션은 두 개수 테이블에서 정확히 동일해야 합니다.
- 클래스 수
- 해시 함수의 비트 수
- 해시 함수의 초기값
- 계산할 열 선택
레이블 열은 동일한 수의 클래스를 포함하는 한 다를 수 있습니다.
Count 테이블 형식 옵션을 사용하여 업데이트된 개수 테이블의 형식과 대상을 지정합니다.
팁
병합하려는 두 개수 테이블의 형식은 동일해야 합니다. 즉, 사전 형식을 사용하여 이전 개수 테이블을 저장한 경우 CMSketch 형식을 사용하여 저장된 개수와 병합할 수 없습니다.
실험을 실행합니다.
이 모듈은 변환 적용 모듈에 대한 입력으로 사용할 수 있는 기능화 변환을 만듭니다. 변환 적용 모듈의 출력은 모델을 학습하는 데 사용할 수 있는 변환된 데이터 세트입니다.
이 개수 집합을 기존 개수 기반 기능 집합과 병합하려면 병합 개수 변환을 참조하세요.
예
다른 메서드에 비해 개수 알고리즘 및 개수 기반 모델링의 효율성에 대한 자세한 내용은 다음 문서를 참조하세요.
Azure AI 갤러리의 다음 실험에서는 개수 기반 학습을 사용하여 다양한 예측 모델을 빌드하는 방법을 보여 줍니다.
- 개수가 있는 Learning - 이진 분류
- 개수가 있는 Learning: NYC 택시 데이터를 사용하는 다중 클래스 분류
- counts를 사용하는 Learning: NYC 택시 데이터를 사용하는 이진 분류
모듈 매개 변수
다음 매개 변수는 모든 옵션과 함께 사용됩니다.
Name | Type | 범위 | Optional | 기본값 | 설명 |
---|---|---|---|---|---|
클래스 수 | 정수 | >=2 | 필수 | 2 | 레이블의 클래스 수입니다. |
해시 함수의 비트 수 | 정수 | [12;31] | 필수 | 20 | 해시 함수 범위의 비트 수입니다. |
해시 함수의 초기값 | 정수 | any | 필수 | 1 | 해시 함수의 초기값입니다. |
모듈 유형 | 필수 | 데이터 세트 | count 테이블을 생성할 때 사용할 모듈의 형식입니다. | ||
개수 테이블 형식 | CountTableType | 목록에서 선택 | 필수 | Dictionary | count 테이블의 형식을 지정합니다. |
다음 옵션은 Blob 옵션을 선택할 때 적용됩니다.
Name | Type | 범위 | Optional | 기본값 | 설명 |
---|---|---|---|---|---|
Blob 이름 | String | any | 필수 | 입력 Blob의 이름입니다. 컨테이너 이름을 포함하지 마세요. | |
계정 이름 | String | any | 필수 | 스토리지 계정 이름입니다. | |
계정 키 | SecureString | any | 필수 | 스토리지 계정 키입니다. | |
컨테이너 이름 | String | any | 필수 | 입력 Blob을 포함하는 Azure Blob 컨테이너입니다. | |
개수 열 | String | any | 필수 | 계산을 수행할 열 그룹의 1 기반 인덱스입니다. | |
레이블 열 | 정수 | >=1 | 필수 | 1 | 레이블 열의 1 기반 인덱스입니다. |
Blob 형식 | any | 필수 | CSV | Blob 텍스트 파일 형식입니다. |
MapReduce 사용하여 개수를 생성하는 경우 다음 매개 변수가 적용됩니다.
Name | Type | 범위 | Optional | 기본값 | 설명 |
---|---|---|---|---|---|
기본 스토리지 계정 이름 | String | any | 필수 | 없음 | 입력 Blob을 포함하는 스토리지 계정의 이름입니다. |
기본 저장소 계정 키 | SecureString | any | 필수 | 없음 | 입력 Blob을 포함하는 스토리지 계정의 키입니다. |
기본 컨테이너 이름 | String | any | 필수 | 없음 | 개수 테이블을 쓸 Blob 컨테이너의 이름입니다. |
클러스터 URI | String | any | 필수 | 없음 | HDInsight Hadoop 클러스터에 대한 URI입니다. |
사용자 이름 | String | any | 필수 | 없음 | HDInsight Hadoop 클러스터에 로그인할 사용자 이름입니다. |
다음 매개 변수는 count 테이블의 형식을 정의합니다.
Name | Type | 범위 | Optional | 기본값 | 설명 |
---|---|---|---|---|---|
개수 테이블 형식 | CountTableType | 목록 | 필수 | Dictionary | 개수 테이블의 형식입니다. |
레이블 열 인덱스 또는 이름 | ColumnSelection | 데이터 세트로 저장된 개수 테이블에 필요한 경우 | 없음 | 레이블 열을 선택합니다. | |
계산할 열 선택 | ColumnSelection | 데이터 세트로 저장된 개수 테이블에 필요한 경우 | 계산할 열을 선택합니다. 이러한 열은 범주 기능으로 간주됩니다. | ||
CM 스케치 테이블의 깊이 | 정수 | >=1 | 개수 테이블에서 CMSketch 형식을 사용하는 경우 필수 | 4 | 해시 함수 수와 동일한 CM 스케치 테이블의 깊이입니다. |
CM 스케치 테이블의 너비 | 정수 | [1;31] | 개수 테이블에서 CMSketch 형식을 사용하는 경우 필수 | 20 | 해시 함수 범위의 비트 수인 CM 스케치 테이블의 너비입니다. |
레이블 열 인덱스 또는 namecolumn | ColumnSelection | 데이터 세트로 저장된 개수 테이블에 필요한 경우 | 레이블 열을 선택합니다. | ||
계산할 열 선택 | ColumnSelection | 데이터 세트로 저장된 개수 테이블에 필요한 경우 | 계산할 열을 선택합니다. 이러한 열은 범주 기능으로 간주됩니다. | ||
개수 테이블 형식 | 데이터 세트로 저장된 개수 테이블에 필요한 경우 | Dictionary | count 테이블의 형식을 지정합니다. | ||
CM 스케치 테이블의 깊이 | 정수 | >=1 | CMSketch로 저장된 개수 테이블에 필요한 경우 | 4 | 해시 함수 수와 동일한 CM 스케치 테이블 깊이입니다. |
CM 스케치 테이블의 너비 | 정수 | [1;31] | CMSketch로 저장된 개수 테이블에 필요한 경우 | 20 | 해시 함수 범위의 비트 수인 CM 스케치 테이블 너비입니다. |
출력
Name | 유형 | 설명 |
---|---|---|
계산 변환 | ITransform 인터페이스 | 계산 변환입니다. |
예외
예외 | 설명 |
---|---|
오류 0003 | 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다. |
오류 0004 | 매개 변수가 특정 값 이하이면 예외가 발생합니다. |
오류 0005 | 매개 변수가 특정 값보다 작으면 예외가 발생합니다. |
오류 0007 | 매개 변수가 특정 값보다 크면 예외가 발생합니다. |
오류 0009 | Azure 저장소 계정 이름 또는 컨테이너 이름을 잘못 지정하면 예외가 발생합니다. |
오류 0065 | Azure Blob 이름을 잘못 지정한 경우 예외가 발생합니다. |
오류 0011 | 전달된 열 집합 인수가 데이트 세트 열에 적용되지 않으면 예외가 발생합니다. |
오류 0049 | 파일을 구문 분석할 수 없는 경우 예외가 발생합니다. |
오류 1000 | 내부 라이브러리 예외입니다. |
오류 0059 | 열 선택기에서 지정한 열 인덱스를 구문 분석할 수 없으면 예외가 발생합니다. |
오류 0060 | 열 선택기에서 범위를 벗어난 열 범위를 지정하면 예외가 발생합니다. |
오류 0089 | 지정한 클래스 수가 개수 계산에 사용되는 데이터 집합의 실제 클래스 수보다 적으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.