기계 학습 모델 학습

아티클
10/15/2024

Microsoft Fabric의 일부인 Apache Spark를 사용하면 빅 데이터로 기계 학습을 수행할 수 있습니다. Apache Spark를 사용하면 구조화되고, 구조화되지 않고, 빠르게 움직이는 대량의 데이터에 귀중한 인사이트를 구축할 수 있습니다. Microsoft Fabric에서 Apache Spark를 사용하여 기계 학습 모델을 학습할 때 사용할 수 있는 몇 가지 오픈 소스 라이브러리 옵션(Apache Spark MLlib, SynapseML 등)이 있습니다.

Apache SparkML 및 MLlib

Microsoft Fabric의 일부인 Apache Spark는 통합된 오픈 소스 병렬 데이터 처리 프레임워크를 제공합니다. 이 프레임워크는 빅 데이터 분석을 향상시키는 메모리 내 처리를 지원합니다. 속도, 간편한 사용 및 정교한 분석을 위해 Spark 처리 엔진이 빌드되었습니다. Spark는 메모리 내 분산형 계산 기능을 지원하여 기계 학습 및 그래프 계산에 사용된 반복 알고리즘에 적합합니다.

이 분산 환경에 알고리즘 모델링 기능을 제공하는 확장 가능한 기계 학습 라이브러리로 MLlib 및 SparkML이 있습니다. MLlib에는 RDD에 기반하여 빌드된 원래의 API가 포함되어 있습니다. SparkML은 최신 패키지입니다. ML 파이프라인을 생성하기 위해 데이터 프레임에 기반하여 빌드된 높은 수준의 고급 API를 제공합니다. SparkML은 아직 MLlib의 모든 기능을 지원하지 않지만 Spark 표준 기계 학습 라이브러리로 MLlib를 대체합니다.

참고 항목

SparkML 모델 생성에 대한 자세한 내용은 Apache Spark MLlib 리소스를 사용한 모델 학습을 참조하세요.

SynapseML

SynapseML 오픈 소스 라이브러리(이전에는 MMLSpark로 알려짐)은 대규모로 확장 가능한 ML(기계 학습) 파이프라인을 간편하게 만들 수 있는 라이브러리입니다. 이를 통해 데이터 과학자는 Spark를 더욱 생산적으로 사용할 수 있습니다. 해당 라이브러리는 실험 속도를 높이고 대규모 데이터 세트에 최첨단 기계 삭습 기술(딥 러닝 포함)을 적용하기 때문입니다.

SynapseML은 확장 가능한 ML 모델을 빌드할 때 SparkML 하위 수준 API보다 높은 계층을 제공합니다. 이러한 API는 문자열 인덱싱, 기능 벡터 어셈블리, 기계 학습 알고리즘에 적합한 레이아웃으로 데이터 강제 변환 등을 다룹니다. SynapseML 라이브러리는 PySpark에서 모델을 작성하기 위한 이러한 일반적인 작업을 간소화합니다.

이 문서에서는 Microsoft Fabric에서 Apache Spark로 기계 학습 모델을 학습하는 데 사용할 수 있는 다양한 옵션에 대한 개요를 제공합니다. 모델 학습에 대한 자세한 내용은 다음 리소스를 참조하세요.

AI 샘플을 사용하여 기계 학습 모델 빌드: AI 샘플 사용
실험을 사용하여 기계 학습 실행 추적: 기계 학습 실험

다음을 통해 공유

기계 학습 모델 학습

Apache SparkML 및 MLlib

인기 있는 라이브러리

SynapseML

피드백

추가 리소스

다음을 통해 공유

기계 학습 모델 학습

Apache SparkML 및 MLlib

인기 있는 라이브러리

SynapseML

관련 콘텐츠

피드백

추가 리소스