데이터 요약
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
데이터 집합의 열에 대한 기본 설명 통계 보고서 생성
범주: 통계 함수
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)의 데이터 요약 모듈을 사용하여 입력 테이블의 각 열을 설명하는 표준 통계 측정값 집합을 만드는 방법을 설명합니다.
이러한 요약 통계는 전체 데이터 세트의 특성을 이해하려는 경우에 유용합니다. 예를 들어, 다음을 알아야 합니다.
- 각 열에는 몇 개의 누락 값이 있나요?
- 기능 열에는 몇 개의 고유 값이 있나요?
- 각 열의 평균 및 표준 편차는 무엇인가요?
모듈은 각 열의 중요한 점수를 계산하고 입력으로 제공된 각 변수(데이터 열)의 요약 통계 행을 반환합니다.
팁
Studio(클래식)에서 시각화 옵션을 사용하여 통계의 짧은 목록을 얻을 수 있다는 것을 이미 알고 있을 수 있습니다. 그러나 이 시각화는 일부 상위 행 수를 기반으로 만들어집니다. 반면, 데이터 요약 모듈은 모든 데이터 행에 대한 통계를 계산합니다.
데이터 요약을 사용하는 방법
실험에 데이터 요약 모듈을 추가합니다. 이 모듈은 Studio(클래식)의 통계 함수 범주에서 찾을 수 있습니다.
보고서를 생성하려는 데이터 세트를 연결합니다.
일부 열에 대해서만 보고하려는 경우 데이터 세트에서 열 선택 모듈을 사용하여 작업할 열의 하위 집합을 프로젝션합니다.
추가 매개 변수는 필요 없습니다. 기본적으로 이 모듈은 입력으로 제공된 모든 열을 분석하고, 열의 값 형식에 따라 결과 섹션에 설명된 대로 관련 통계 집합을 출력합니다.
실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.
결과
모듈의 보고서에는 다음 통계가 포함될 수 있습니다.
생성되는 정확한 통계는 열 데이터 형식에 따라 달라집니다. 자세한 내용은 기술 정보 섹션을 참조하세요.
인스턴스가 모집단의 대표적인 샘플에 속한다고 가정합니다. 모집단에 대한 통계를 계산해야 하는 경우 샘플 또는 모집단 통계를 계산할 수 있는 컴퓨팅 기본 통계 모듈의 옵션을 사용합니다.
열 이름 | Description |
---|---|
기능 | 열의 이름 |
개수 | 모든 행의 개수 |
고유 값 개수 | 열의 고유 값 수 |
누락 값 개수 | 열의 고유 값 수 |
Min | 열에서 가장 낮은 값 |
Max | 열에서 가장 높은 값 |
평균값 | 모든 열 값의 평균값 |
평균 편차 | 열 값의 평균 편차 |
첫 번째 변위치 | 첫 번째 사분위수 값 |
중앙값 | 중앙값 열 값 |
세 번째 변위치 | 세 번째 사분위수 값 |
모드 | 열 값의 모드 |
범위 | 최대값과 최소값 사이의 값 수를 나타내는 정수 |
샘플 가변성 | 열의 가변성, 참고 참조 |
샘플 표준 편차 | 열의 표준 편차, 참고 참조 |
샘플 왜도 | 열의 왜도, 참고 참조 |
샘플 첨도 | 열의 첨도, 참고 참조 |
P0.5 | 0.5% 백분위수 |
P1 | 1% 백분위수 |
P5 | 5% 백분위수 |
P95 | 95% 백분위수 |
P99.5 | 99.5% 백분위수 |
팁
BI 보고 도구에서 데이터를 사용하거나 실험의 다른 작업에 대한 입력으로 값을 사용할 수 있도록 통계 보고서를 테이블 형식 데이터 세트로 출력합니다.
예
실험에서 데이터 요약 모듈을 사용하는 방법의 예는 Azure AI 갤러리를 참조하세요.
UCI에서 데이터 세트 다운로드: UCI Machine Learning 리포지토리의 URL을 사용하여 CSV 형식으로 데이터 세트를 읽고 데이터 세트에 대한 몇 가지 기본 통계를 생성합니다.
데이터 세트 처리 및 분석: 데이터 세트를 작업 영역에 로드하고 열 이름을 변경하며 메타데이터를 추가합니다.
학생 성과 예측: Azure Blob Storage에서 TSV 형식으로 저장된 데이터를 읽습니다.
기술 정보
숫자 및 부울 열의 경우 평균, 중앙값, 모드 및 표준 편차를 출력할 수 있습니다.
숫자가 아닌 열의 경우에는 개수, 고유값 개수 및 누락 값 개수의 값만 계산합니다. 다른 통계의 경우에는 null 값이 반환됩니다.
부울 값을 포함하는 열은 다음 규칙을 사용하여 처리됩니다.
최소값 계산 시에는 논리 AND가 적용됩니다.
Max를 계산할 때 논리 OR이 적용됩니다.
범위 계산 시에는 먼저 열의 고유 값 수가 2인지를 확인합니다.
부동 소수점 계산을 수행해야 하는 통계를 계산할 때 True 값은 1.0으로, False 값은 0.0으로 처리됩니다.
예상 입력
Name | 유형 | 설명 |
---|---|---|
데이터 세트 | 데이터 테이블 | 입력 데이터 세트 |
출력
Name | 유형 | 설명 |
---|---|---|
결과 데이터 집합 | 데이터 테이블 | 기술 통계를 포함하는 입력 데이터 집합의 프로필입니다. |
예외
예외 | 설명 |
---|---|
오류 0003 | 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다. |
오류 0020 | 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다. |
오류 0021 | 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.