다음을 통해 공유


기계 학습 모델 학습

Microsoft Fabric의 일부인 Apache Spark를 사용하면 빅 데이터로 기계 학습을 수행할 수 있습니다. Apache Spark를 사용하면 구조화되고, 구조화되지 않고, 빠르게 움직이는 대량의 데이터에 귀중한 인사이트를 구축할 수 있습니다. Microsoft Fabric에서 Apache Spark를 사용하여 기계 학습 모델을 학습할 때 사용할 수 있는 몇 가지 오픈 소스 라이브러리 옵션(Apache Spark MLlib, SynapseML 등)이 있습니다.

Apache SparkML 및 MLlib

Microsoft Fabric의 일부인 Apache Spark는 통합된 오픈 소스 병렬 데이터 처리 프레임워크를 제공합니다. 이 프레임워크는 빅 데이터 분석을 향상시키는 메모리 내 처리를 지원합니다. 속도, 간편한 사용 및 정교한 분석을 위해 Spark 처리 엔진이 빌드되었습니다. Spark는 메모리 내 분산형 계산 기능을 지원하여 기계 학습 및 그래프 계산에 사용된 반복 알고리즘에 적합합니다.

이 분산 환경에 알고리즘 모델링 기능을 제공하는 확장 가능한 기계 학습 라이브러리로 MLlibSparkML이 있습니다. MLlib에는 RDD에 기반하여 빌드된 원래의 API가 포함되어 있습니다. SparkML은 최신 패키지입니다. ML 파이프라인을 생성하기 위해 데이터 프레임에 기반하여 빌드된 높은 수준의 고급 API를 제공합니다. SparkML은 아직 MLlib의 모든 기능을 지원하지 않지만 Spark 표준 기계 학습 라이브러리로 MLlib를 대체합니다.

참고 항목

SparkML 모델 생성에 대한 자세한 내용은 Apache Spark MLlib 리소스를 사용한 모델 학습을 참조하세요.

Apache Spark용 Microsoft Fabric 런타임에는 기계 학습 모델 학습을 위한 몇 가지 인기 있는 오픈 소스 패키지가 포함되어 있습니다. 이러한 라이브러리는 프로그램이나 프로젝트에 포함할 수 있는 재사용 가능한 코드를 제공합니다. 런타임에는 다음과 같은 관련 기계 학습 라이브러리가 포함됩니다.

  • Scikit-learn - 기존 ML 알고리즘을 위한 가장 인기 있는 단일 노드 기계 학습 라이브러리 중 하나입니다. Scikit-learn은 대부분의 지도 및 비지도 학습 알고리즘을 지원하며 데이터 마이닝 및 데이터 분석을 처리할 수 있습니다.

  • XGBoost - 의사 결정 트리 및 임의 포레스트 학습을 위한 최적화된 알고리즘이 포함된 인기 있는 기계 학습 라이브러리입니다.

  • PyTorchTensorflow는 강력한 Python 딥 러닝 라이브러리입니다. 이러한 라이브러리를 사용하면 풀의 실행기 수를 0으로 설정하여 단일 머신 모델을 빌드할 수 있습니다. 이 구성은 Apache Spark를 지원하지 않지만 단일 컴퓨터 모델을 만드는 간단하고 비용 효율적인 방법입니다.

SynapseML

SynapseML 오픈 소스 라이브러리(이전에는 MMLSpark로 알려짐)은 대규모로 확장 가능한 ML(기계 학습) 파이프라인을 간편하게 만들 수 있는 라이브러리입니다. 이를 통해 데이터 과학자는 Spark를 더욱 생산적으로 사용할 수 있습니다. 해당 라이브러리는 실험 속도를 높이고 대규모 데이터 세트에 최첨단 기계 삭습 기술(딥 러닝 포함)을 적용하기 때문입니다.

SynapseML은 확장 가능한 ML 모델을 빌드할 때 SparkML 하위 수준 API보다 높은 계층을 제공합니다. 이러한 API는 문자열 인덱싱, 기능 벡터 어셈블리, 기계 학습 알고리즘에 적합한 레이아웃으로 데이터 강제 변환 등을 다룹니다. SynapseML 라이브러리는 PySpark에서 모델을 작성하기 위한 이러한 일반적인 작업을 간소화합니다.

이 문서에서는 Microsoft Fabric에서 Apache Spark로 기계 학습 모델을 학습하는 데 사용할 수 있는 다양한 옵션에 대한 개요를 제공합니다. 모델 학습에 대한 자세한 내용은 다음 리소스를 참조하세요.