데이터 과학 엔드투엔드 시나리오: 소개 및 아키텍처
이 자습서 세트에서는 Fabric 데이터 과학 환경의 샘플 엔드투엔드 시나리오를 보여 줍니다. 데이터 수집, 정리 및 준비부터 기계 학습 모델 학습 및 인사이트 생성에 이르기까지 각 단계를 구현한 다음 Power BI와 같은 시각화 도구를 사용하여 이러한 인사이트를 사용합니다.
Microsoft Fabric을 처음 접하는 경우 Microsoft Fabric이란?을 참조하세요.
소개
데이터 과학 프로젝트의 수명 주기에는 일반적으로 다음 단계(종종 반복적으로)가 포함됩니다.
- 비즈니스 이해
- 데이터 취득
- 데이터 탐색, 정리, 준비 및 시각화
- 모델 학습 및 실험 추적
- 모델 채점 및 인사이트 생성
각 단계의 목표 및 성공 기준은 공동 작업, 데이터 공유 및 문서화에 따라 달라집니다. Fabric 데이터 과학 환경은 원활한 방식으로 협업, 데이터 획득, 공유 및 소비를 가능하게 하는 여러 기본 제공 기능으로 구성되어 있습니다.
이 자습서에서는 은행 고객 10,000명의 이탈 상태를 포함하는 데이터 세트를 탐색, 정리 및 변환하는 작업을 맡은 데이터 과학자의 역할을 수행해 봅니다. 그런 다음, 기계 학습 모델을 빌드하여 어떤 은행 고객이 이탈할 가능성이 있는지 예측합니다.
다음 작업을 수행하는 방법을 알아봅니다.
- 데이터 과학 시나리오에 Fabric Notebook 사용
- Apache Spark를 사용하여 Fabric 레이크하우스에 데이터 수집
- 레이크하우스 델타 테이블에서 기존 데이터 로드
- Apache Spark 및 Python 기반 도구를 사용하여 데이터를 정리하고 변환
- 다양한 기계 학습 모델을 학습하기 위한 실험 및 실행 만들기
- MLflow 및 Fabric UI를 사용하여 학습된 모델을 등록하고 추적
- 대규모로 채점을 실행하고 예측 및 유추 결과를 레이크하우스에 저장
- DirectLake를 사용하여 Power BI에서 예측 결과 시각화
아키텍처
이 자습서 시리즈에서는 다음과 같은 간소화된 엔드투엔드 데이터 과학 시나리오를 소개합니다.
데이터 과학 시나리오의 다양한 구성 요소
데이터 원본: Fabric을 사용하면 Azure Data Services, 다른 클라우드 플랫폼 및 온프레미스 데이터 원본에 쉽고 빠르게 연결하여 데이터를 수집할 수 있습니다. Fabric Notebook을 사용하면 기본 제공 레이크하우스, Data Warehouse, 의미 체계 모델 및 다양한 Apache Spark 및 Python 지원 사용자 지정 데이터 원본에서 데이터를 수집할 수 있습니다. 이 자습서 시리즈는 레이크하우스에서 데이터를 수집하고 로드하는 데 중점을 둡니다.
탐색, 정리 및 준비 - Fabric의 데이터 과학 환경은 Spark의 기본 제공 환경뿐만 아니라 데이터 랭글러 및 SemPy 라이브러리와 같은 Python 기반 도구를 사용하여 데이터 정리, 변환, 탐색 및 기능화를 지원합니다. 이 자습서에서는 Python 라이브러리 seaborn
을 사용한 데이터 탐색과 Apache Spark를 사용한 데이터 정리 및 준비를 소개합니다.
모델 및 실험 - Fabric을 사용하면 실험 추적 및 모델 등록/배치를 위해 MLflow와 원활하게 통합된 내장된 실험 및 모델 항목을 사용하여 기계 학습 모델을 학습, 평가 및 채점할 수 있습니다. Fabric은 또한 PREDICT(대규모 모델 예측)를 통해 비즈니스 인사이트를 얻고 공유할 수 있는 기능을 제공합니다.
스토리지 - Fabric은 Delta Lake를 기반으로 표준화됩니다. 즉, Fabric의 모든 엔진이 레이크하우스에 저장된 동일한 데이터 세트와 상호 작용할 수 있습니다. 이 스토리지 계층을 사용하면 파일 기반 스토리지와 테이블 형식을 모두 지원하는 구조화된 데이터와 구조화되지 않은 데이터를 모두 저장할 수 있습니다. 저장된 데이터 세트 및 파일은 Notebook 및 파이프라인과 같은 모든 Fabric 환경 항목을 통해 쉽게 액세스할 수 있습니다.
분석 및 인사이트 제공 - 레이크하우스의 데이터는 업계를 선도하는 비즈니스 인텔리전스 도구인 Power BI에서 보고 및 시각화를 위해 사용할 수 있습니다. 레이크하우스에 유지되는 데이터는 Spark 또는 Python 네이티브 시각화 라이브러리(예: matplotlib
, seaborn
, plotly
등)를 사용하여 Notebook에서 시각화할 수도 있습니다. 의미 체계 데이터 모델, 종속성 및 위반, 분류 및 회귀 사용 사례에 대해 기본 제공된 풍부한 작업별 시각화를 지원하는 SemPy 라이브러리를 사용하여 데이터를 시각화할 수도 있습니다.