다음을 통해 공유


기능 선택 모듈

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 기능 선택에 사용할 수 있는 Machine Learning Studio(클래식)의 모듈에 대해 설명합니다.

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

기능 선택은 기계 학습에서 중요한 도구입니다. Machine Learning Studio(클래식)는 기능 선택을 수행하기 위한 여러 메서드를 제공합니다. 데이터 형식 및 적용된 통계 기술의 요구 사항에 따라 기능 선택 방법을 선택합니다.

이 문서에서는 다음 내용을 설명합니다.

Machine Learning Studio(클래식)의 각 기능 선택 모듈은 데이터 세트를 입력으로 사용합니다. 그런 다음, 모듈은 입력으로 제공되는 데이터 열에 잘 알려진 통계 메서드를 적용합니다. 출력은 최상의 정보 값이 있는 열을 식별하는 데 도움이 되는 메트릭 집합입니다.

기능 선택 정보

기계 학습 및 통계에서 기능 선택은 분석 모델을 빌드하는 데 사용할 관련 유용한 기능의 하위 집합을 선택하는 프로세스입니다. 기능을 선택하면 데이터 필드를 가장 중요한 입력으로 좁힐 수 있습니다. 데이터 필드의 범위를 좁히면 노이즈를 줄이고 학습 성능을 향상시킬 수 있습니다.

종종 기능은 기능 엔지니어링 프로세스를 통해 원시 데이터에서 만들어집니다. 예를 들어 타임스탬프는 정보가 휴일 및 근무일과 같은 문제와 관련된 일 단위, 월 또는 범주로 변환될 때까지 모델링에 유용하지 않을 수 있습니다.

기계 학습의 새 사용자는 사용 가능한 모든 데이터를 포함하려는 유혹을 받을 수 있습니다. 알고리즘이 더 많은 데이터를 사용하여 흥미로운 것을 찾을 것으로 예상할 수 있습니다. 그러나 기능 선택은 일반적으로 모델을 개선하고 일반적인 문제를 방지할 수 있습니다.

  • 데이터에는 현재 선택된 기능보다 더 많은 정보를 제공하지 않는 중복되거나 관련이 없는 기능이 포함되어 있습니다.
  • 데이터에는 컨텍스트에서 유용한 정보를 제공하지 않는 관련 없는 기능이 포함되어 있습니다. 관련 없는 필드를 포함하면 데이터를 학습하는 데 필요한 시간이 늘어나고 결과가 나빠질 수 있습니다.
  • 일부 알고리즘을 사용하면 학습 데이터에 중복 정보가 있으면 다중 데이터라는 현상이 발생할 수 있습니다. 다중 데이터 정렬에서 상관 관계가 높은 두 변수가 있으면 다른 변수에 대한 계산의 정확도가 훨씬 낮아질 수 있습니다.

Machine Learning Studio(클래식)의 일부 기계 학습 알고리즘은 학습 프로세스의 일부로 기능 선택 또는 차원 감소도 사용합니다. 이러한 학습자를 사용하는 경우 기능 선택 프로세스를 건너뛰고 알고리즘이 최적의 입력을 자동으로 결정하도록 할 수 있습니다.

실험에서 기능 선택 사용

기능 선택은 일반적으로 데이터를 탐색하고 새 모델을 개발할 때 수행됩니다. 기능 선택을 사용하는 경우 다음 팁을 염두에 두어야 합니다.

  • 테스트할 때 실험에 기능 선택을 추가하여 사용할 열의 결정을 알리는 점수를 생성합니다.
  • 모델을 조작할 때 실험에서 기능 선택을 제거합니다.
  • 기능 선택을 주기적으로 실행하여 데이터 및 최상의 기능이 변경되지 않았는지 확인합니다.

기능 선택은 기존 데이터에서 새 기능을 만드는 데 중점을 둔 기능 엔지니어링과 다릅니다.

리소스

Machine Learning Studio의 기능 선택 방법(클래식)

Machine Learning Studio(클래식)에서 제공되는 기능 선택 모듈은 다음과 같습니다.

필터 기반 기능 선택

필터 기반 기능 선택 모듈을 사용하는 경우 잘 알려진 기능 선택 방법 중에서 선택할 수 있습니다. 모듈은 기능 선택 통계와 필터링된 데이터 세트를 모두 출력합니다.

필터 선택 방법을 선택할 때는 사용 중인 입력 데이터의 종류를 어느 정도 고려합니다.

메서드 지원되는 기능 입력 지원되는 레이블
피어슨 상관 관계 숫자 및 논리 열만 단일 숫자 또는 논리 열
상호 정보 점수 모든 데이터 형식 모든 데이터 형식의 단일 열
켄들 상관 계수 숫자 및 논리 열만 단일 숫자 또는 논리 열

열에는 순위를 지정할 수 있는 값이 있어야 합니다.
스페어만 상관 계수 숫자 및 논리 열만 단일 숫자 또는 논리 열
카이 제곱 통계 모든 데이터 형식 모든 데이터 형식의 단일 열
피셔 점수 숫자 및 논리 열만 단일 숫자 또는 논리 열

문자열 열에 0의 점수가 할당됩니다.
개수 기반 기능 선택 모든 데이터 형식 레이블 열은 필요하지 않습니다.

피셔 선형 판별 분석

선형 비범죄 분석은 단일 범주 대상과 함께 숫자 변수를 분류하는 데 사용할 수 있는 감독 학습 기술입니다. 이 방법은 그룹을 가장 효율적으로 구분하는 기능이나 매개 변수의 조합을 식별하므로 기능 선택 시 유용합니다.

Fisher Linear Discriminant Analysis 모듈을 사용하여 검토를 위한 점수 집합을 생성하거나 모듈에서 생성한 대체 데이터 세트를 학습에 사용할 수 있습니다.

순열 기능 중요도

순열 기능 중요도 모듈을 사용하여 모든 기능 집합이 데이터 세트에 미치는 영향을 시뮬레이션합니다. 모듈은 기능 값의 임의 순서 섞기를 기반으로 모델의 성능 점수를 계산합니다.

모듈이 반환하는 점수는 값이 변경될 경우 학습된 모델의 정확도가 변경될 가능성이 있음을 나타냅니다. 점수를 사용하여 개별 변수가 모델에 미치는 영향을 확인할 수 있습니다.

기능 선택을 통합하는 기계 학습 알고리즘

Machine Learning Studio(클래식)의 일부 기계 학습 알고리즘은 학습 중에 기능 선택을 최적화합니다. 또한 기능 선택에 도움이 되는 매개 변수를 제공할 수도 있습니다. 기능을 선택하기 위해 자체 추론이 있는 메서드를 사용하는 경우 기능을 미리 선택하는 대신 추론에 의존하는 것이 더 좋은 경우가 많습니다.

이러한 알고리즘 및 기능 선택 메서드는 내부적으로 사용됩니다.

  • 분류 및 회귀를 위한 향상된 의사 결정 트리 모델

    이러한 모듈에서는 기능 요약이 내부적으로 만들어집니다. 가중치가 0인 기능은 트리 분할에서 사용되지 않습니다. 가장 잘 학습된 모델을 시각화할 때 각 트리를 볼 수 있습니다. 어떤 트리에서도 기능이 사용되지 않는 경우 이 기능은 제거 후보일 가능성이 높습니다. 선택을 최적화하려면 매개 변수 비우기를 사용하는 것이 좋습니다.

  • 로지스틱 회귀 모델 및 선형 모델

    다중 클래스 및 이진 로지스틱 회귀를 위한 모듈은 L1 및 L2 정규화를 지원합니다. 정규화는 학습 중에 제약 조건을 추가하여 학습된 모델의 측면을 수동으로 지정하는 방법입니다. 정규화는 일반적으로 과잉 맞춤을 방지하는 데 사용됩니다. Machine Learning Studio(클래식)는 선형 분류 알고리즘에서 가중치 벡터의 L1 또는 L2 표준에 대한 정규화를 지원합니다.

    • L1 정규화는 가능한 한 스파스인 모델을 사용하는 것이 목표인 경우에 유용합니다.
    • L2 정규화를 사용하면 가중치 벡터에 있는 단일 좌표의 크기가 너무 커지지 않게 합니다. 전체 가중치가 작은 모델을 목표로 하는 경우에 유용합니다.
    • L1 정규화된 로지스틱 회귀는 기능에 가중치 0을 할당하는 데 더 적극적입니다. 제거할 수 있는 기능을 식별하는 데 유용합니다.

기술 정보

숫자 및 논리 열을 지원하는 모든 기능 선택 모듈 및 분석 메서드도 날짜-시간 및 시간 범위 열을 지원합니다. 이러한 열은 각 값이 틱 수와 같은 단순 숫자 열로 처리됩니다.

다음 모듈은 기능 선택 범주에 없지만 관련 작업에 사용할 수 있습니다. 모듈은 데이터의 차원을 줄이거나 상관 관계를 찾는 데 도움이 될 수 있습니다.

열이 많은 데이터 세트가 있는 경우 주 구성 요소 분석 모듈을 사용하여 원래 데이터에 대한 가장 많은 정보가 포함된 열을 검색합니다.

이 모듈은 크기 조정 및 축소 아래의 데이터 변환 범주에 있습니다.

개수 기반 기능화는 큰 데이터 세트를 사용하여 유용한 기능을 결정하는 데 사용할 수 있는 새로운 기술입니다. 이러한 모듈을 사용하여 데이터 세트를 분석하여 최상의 기능을 찾거나, 새 데이터와 함께 사용할 기능 집합을 저장하거나, 기존 기능 집합을 업데이트합니다.

이 모듈을 사용하여 입력 데이터 세트에서 가능한 각 변수 쌍에 대한 Pearson 상관 계수 집합을 계산합니다. Pearson의 R 테스트라고도 하는 Pearson 상관 계수는 두 변수 간의 선형 관계를 측정하는 통계 값입니다.

이 모듈은 통계 함수 범주에 있습니다 .

모듈 목록

기능 선택 범주에는 다음 모듈이 포함됩니다.

참고 항목