ML.NET 모델 개선
ML.NET 모델을 개선하는 방법을 알아봅니다.
문제 재구성
경우에 따라 모델을 개선하는 것은 모델을 학습시키는 데 사용되는 데이터 또는 기술과는 아무런 관련이 없을 수 있습니다. 대신, 잘못된 질문을 받고 있는 것일 수도 있습니다. 다양한 각도에서 문제를 살펴보고 데이터를 활용하여 질문을 구체화하기 위해 잠재 지표 및 숨겨진 관계를 추출하는 것이 좋습니다.
더 많은 데이터 샘플 제공
인간과 마찬가지로 학습 알고리즘이 많을수록 성능이 향상될 가능성이 높아집니다. 모델 성능을 향상시키는 한 가지 방법은 알고리즘에 더 많은 학습 데이터 샘플을 제공하는 것입니다. 더 많은 데이터를 학습할수록 더 많은 사례를 올바르게 식별할 수 있습니다.
데이터에 컨텍스트 추가
단일 데이터 요소의 의미는 해석하기 어려울 수 있습니다. 데이터 요소를 중심으로 컨텍스트를 구축하면 알고리즘뿐만 아니라 주제 전문가도 더 나은 의사 결정을 내릴 수 있습니다. 예를 들어, 집에 3 개의 침실이 있다는 사실은 그 자체로 가격을 잘 나타내지 않습니다. 그러나 컨텍스트를 추가하고 평균 연령이 38 인 주요 대도시 지역 밖의 교외 지역에 있다는 것을 알게되면 평균 가구 소득은 $ 80,000이고 학교는 상위 20 번째 백분위수에 있는 다음 알고리즘은 결정을 기반으로하는 더 많은 정보를 가지고 있습니다. 이 모든 컨텍스트를 기계 학습 모델에 기능으로 입력으로 추가할 수 있습니다.
의미 있는 데이터 및 기능 사용
더 많은 데이터 샘플과 기능이 모델의 정확도를 향상시키는 데 도움이 될 수 있지만 일부 데이터 및 기능이 의미가 있는 것은 아니므로 노이즈가 발생할 수도 있습니다. 따라서 알고리즘의 결정에 가장 큰 영향을 주는 기능이 무엇인지 이해하는 것이 중요합니다. PFI(순열 기능 중요도)와 같은 기술을 사용하면 이러한 중요한 기능을 식별하는 데 도움이 될 뿐만 아니라 모델을 설명할 뿐만 아니라 출력을 기능 선택 방법으로 사용하여 학습 프로세스에 들어가는 시끄러운 기능의 양을 줄일 수 있습니다.
PFI 사용에 대한 자세한 내용은 순열 특성 중요도를 사용하여 모델 예측 설명 을 참조하세요.
교차 유효성 검사
교차 유효성 검사는 데이터를 여러 파티션으로 분할하고 이러한 파티션에서 여러 알고리즘을 학습하는 학습 및 모델 평가 기술입니다. 이 기술은 학습 프로세스에서 데이터를 보관하여 모델의 견고성을 향상시킵니다. 보이지 않는 관찰에 대한 성능 향상 외에도 데이터 제약이 있는 환경에서는 더 작은 데이터 세트를 사용하여 모델을 학습시키는 효과적인 도구가 될 수 있습니다.
자세한 내용은 ML.NET교차 유효성 검사를 사용하는 방법을 참조하세요.
하이퍼 매개 변수 튜닝
기계 학습 모델 학습은 반복적이고 예비적인 프로세스입니다. 예를 들어 K-평균 알고리즘을 사용하여 모델을 학습할 때 클러스터의 최적 수는 어떻게 됩니까? 대답은 데이터 구조와 같은 여러 요인에 따라 달라집니다. 이 숫자를 찾으려면 k에 대해 서로 다른 값을 실험한 다음 성능을 평가하여 가장 적합한 값을 결정해야 합니다. 최적의 모델을 찾기 위해 학습 프로세스를 안내하는 매개 변수를 튜닝하는 방법을 하이퍼 매개 변수 튜닝이라고 합니다.
다른 알고리즘 선택
회귀 및 분류와 같은 기계 학습 작업에는 다양한 알고리즘 구현이 포함됩니다. 해결하려는 문제와 데이터의 구조화 방식이 현재 알고리즘에 잘 맞지 않는 경우가 있을 수 있습니다. 이러한 경우 작업에 다른 알고리즘을 사용하여 데이터에서 더 잘 학습되는지 확인하는 것이 좋습니다.
다음 링크는 알고리즘을 선택하는 데 필요한 더 많은 지침을 제공합니다.
.NET