중요한 용어의 기계 학습 용어집
다음 목록은 ML.NET 사용자 지정 모델을 빌드할 때 유용한 중요한 기계 학습 용어의 컴파일입니다.
정밀
분류정확도는 올바르게 분류된 항목의 수를 테스트 집합의 총 항목 수로 나눈 값입니다. 범위는 0(최소 정확도)에서 1(가장 정확함)입니다. 정확도는 모델 성능의 평가 메트릭 중 하나입니다. 정밀도, 회수및 F 점수함께 고려합니다.
곡선 아래 영역(AUC)
이진 분류, 진양성 비율(y축)을 x축의 가양성 비율에 대해 그리는 곡선 아래 영역의 값인 평가 메트릭입니다. 범위는 0.5(최악)에서 1(최고)입니다. ROC 곡선 아래의 영역(예: 수신기 작동 특성 곡선)으로도 알려져 있습니다. 자세한 내용은 Wikipedia의 수신기 운영 특성 문서를 참조하세요.
이진 분류
레이블 두 클래스 중 하나만 있는 분류 사례입니다. 자세한 내용은 Machine Learning 작업 항목의 이진 분류 섹션을 참조하세요.
교정
보정은 이진 및 다중 클래스 분류를 위해 원시 점수를 클래스 멤버 자격에 매핑하는 프로세스입니다. 일부 ML.NET 트레이너는 NonCalibrated
접미사가 있습니다. 이러한 알고리즘은 원시 점수를 생성한 다음 클래스 확률에 매핑해야 합니다.
카탈로그
ML.NET 카탈로그는 일반적인 용도로 그룹화된 확장 함수의 컬렉션입니다.
예를 들어 각 기계 학습 작업(이진 분류, 회귀, 순위 등)에는 사용 가능한 기계 학습 알고리즘(트레이너) 카탈로그가 있습니다. 이진 분류 트레이너의 카탈로그는 BinaryClassificationCatalog.BinaryClassificationTrainers.
분류
데이터를 사용하여 범주를 예측하면 감독되는 기계 학습 작업을 분류라고
결정 계수
회귀데이터가 모델에 얼마나 잘 맞는지 나타내는 평가 메트릭입니다. 0에서 1까지의 범위입니다. 값이 0이면 데이터가 임의이거나 모델에 맞지 않습니다. 값이 1이면 모델이 데이터와 정확히 일치합니다. 이를 r2, R2또는 r 제곱이라고도 합니다.
데이터
데이터는 모든 기계 학습 애플리케이션의 핵심입니다. ML.NET 데이터는 IDataView 개체로 표시됩니다. 데이터 뷰 개체:
- 는 열과 행으로 구성됩니다.
- 는 지연 평가됩니다. 즉, 작업이 데이터를 호출할 때만 데이터를 로드합니다.
- 에는 각 열의 형식, 형식 및 길이를 정의하는 스키마가 포함되어 있습니다.
견적
IEstimator<TTransformer> 인터페이스를 구현하는 ML.NET 클래스입니다.
예측 도구는 변환의 사양입니다(데이터 준비 변환 및 기계 학습 모델 학습 변환 모두). 예측 도구는 변환 파이프라인으로 함께 연결할 수 있습니다. 추정기 또는 예측 도구 파이프라인의 매개 변수는 Fit 호출할 때 학습됩니다. Fit 결과는 변환기.
Extension 메서드
클래스의 일부이지만 클래스 외부에서 정의되는 .NET 메서드입니다. 확장 메서드의 첫 번째 매개 변수는 확장 메서드가 속한 클래스에 대한 정적 this
참조입니다.
확장 메서드는 ML.NET 광범위하게 사용하여 추정기인스턴스를 생성합니다.
특징
측정되는 현상의 측정 가능한 속성으로, 일반적으로 숫자(double) 값입니다. 여러 기능을 기능 벡터라고 하며 일반적으로 double[]
저장됩니다. 기능은 측정되는 현상의 중요한 특성을 정의합니다. 자세한 내용은 Wikipedia의 기능 문서를 참조하세요.
기능 엔지니어링
기능 엔지니어링은
F 점수
하이퍼 매개 변수
기계 학습 알고리즘의 매개 변수입니다. 예를 들어 의사 결정 포리스트에서 학습할 트리 수 또는 그라데이션 하강 알고리즘의 단계 크기가 있습니다. 모델을 학습하기 전에 하이퍼 매개 변수 값이 설정되며 예측 함수의 매개 변수를 찾는 프로세스(예: 의사 결정 트리의 비교 지점 또는 선형 회귀 모델의 가중치)를 제어합니다. 자세한 내용은 Wikipedia의 하이퍼 매개 변수 문서를 참조하세요.
레이블
기계 학습 모델을 사용하여 예측할 요소입니다. 예를 들어 개 품종 또는 향후 주가입니다.
로그 손실
분류분류자의 정확도를 나타내는 평가 메트릭입니다. 로그 손실이 작을수록 분류자가 더 정확해집니다.
손실 함수
손실 함수는 학습 레이블 값과 모델에서 수행한 예측 간의 차이입니다. 모델의 매개 변수는 손실 함수를 최소화하여 추정됩니다.
다른 트레이너는 다른 손실 함수로 구성할 수 있습니다.
MAE(평균 절대 오차)
회귀모델 오류의 평균인 평가 메트릭입니다. 여기서 모델 오류는 예측된 레이블 값과 올바른 레이블 값 사이의 거리입니다.
모델
일반적으로 예측 함수에 대한 매개 변수입니다. 예를 들어 선형 회귀 모델의 가중치 또는 의사 결정 트리의 분할 지점입니다. ML.NET 모델에는 도메인 개체의 레이블 예측하는 데 필요한 모든 정보(예: 이미지 또는 텍스트)가 포함됩니다. 즉, ML.NET 모델에는 필요한 기능화 단계와 예측 함수에 대한 매개 변수가 포함됩니다.
다중 클래스 분류
레이블 세 개 이상의 클래스 중 하나인 분류 사례입니다. 자세한 내용은 Machine Learning 작업 항목의 다중 클래스 분류 섹션을 참조하세요.
N-그램
텍스트 데이터에 대한 기능 추출 체계입니다. N단어 시퀀스는 값에
표준화
정규화는 부동 소수점 데이터를 0에서 1 사이의 값으로 확장하는 프로세스입니다. ML.NET 사용되는 많은 학습 알고리즘에는 입력 기능 데이터를 정규화해야 합니다. ML.NET 정규화 위한 일련의
숫자 기능 벡터
기능은 숫자 값으로만 구성된 벡터를. 이는 double[]
비슷합니다.
파이프라인
모델을 데이터 세트에 맞추는 데 필요한 모든 작업입니다. 파이프라인은 데이터 가져오기, 변환, 기능화 및 학습 단계로 구성됩니다. 파이프라인이 학습되면 모델로 바뀝니다.
정밀
분류클래스의 전체 자릿수는 해당 클래스에 속하는 것으로 올바르게 예측된 항목의 수를 클래스에 속하는 것으로 예측된 총 항목 수로 나눈 값입니다.
기억
분류클래스에 대한 회수는 해당 클래스에 속하는 것으로 올바르게 예측된 항목 수를 실제로 클래스에 속한 총 항목 수로 나눈 값입니다.
조정
정규화는 선형 모델이 너무 복잡해지게 합니다. 정규화에는 다음 두 가지 유형이 있습니다.
- $L_1$ 정규화는 중요하지 않은 기능에 대한 가중치를 0으로 설정합니다. 저장된 모델의 크기는 이 유형의 정규화 후에 더 작아질 수 있습니다.
- $L_2$ 정규화는 중요하지 않은 기능에 대한 가중치 범위를 최소화합니다. 이 프로세스는 보다 일반적인 프로세스이며 이상값에 덜 민감합니다.
회귀
출력이 실제 값(예: double)인 감독되는 기계 학습 작업입니다. 예를 들어 주가 예측이 있습니다. 자세한 내용은 Machine Learning 작업 항목의 회귀 섹션을 참조하세요.
상대 절대 오차
회귀올바른 레이블 값과 모든 올바른 레이블 값의 평균 사이의 거리 합계로 나눈 모든 절대 오류의 합계인 평가 메트릭입니다.
상대 제곱 오차
회귀올바른 레이블 값과 모든 올바른 레이블 값의 평균 사이의 제곱 거리 합계로 나눈 모든 제곱 절대 오차의 합계인 평가 메트릭입니다.
평균 제곱 오차의 루트(RMSE)
회귀오류 제곱 평균의 제곱근인 평가 메트릭입니다.
점수
채점은 학습된 기계 학습 모델에 새 데이터를 적용하고 예측을 생성하는 프로세스입니다. 채점은 추론이라고도합니다. 모델 유형에 따라 점수는 원시 값, 확률 또는 범주일 수 있습니다.
감독되는 기계 학습
원하는 모델이 아직 보이지 않는 데이터에 대한 레이블을 예측하는 기계 학습의 하위 클래스입니다. 예를 들어 분류, 회귀 및 구조적 예측이 있습니다. 자세한 내용은 Wikipedia의 감독 학습 문서를 참조하세요.
훈련
지정된 학습 데이터 집합에
변압기
ITransformer 인터페이스를 구현하는 ML.NET 클래스입니다.
변압기는 한 IDataView 다른 변환기로 변환합니다. 변환기는 추정기또는 추정기 파이프라인을 학습시켜 생성됩니다.
자율 기계 학습
원하는 모델이 데이터에서 숨겨진(또는 잠재) 구조를 찾는 기계 학습의 하위 클래스입니다. 예를 들어 클러스터링, 토픽 모델링 및 차원 감소가 있습니다. 자세한 내용은 위키백과에 대한 감독되지 않은 학습 문서를 참조하세요.
.NET