소개
Apache Spark는 대규모 데이터 처리 및 분석을 위한 오픈 소스 병렬 처리 프레임워크입니다. Spark는 “빅 데이터” 처리 시나리오에서 널리 사용되고 있으며 Azure HDInsight, Azure Synapse Analytics, Microsoft Fabric 등 여러 플랫폼 구현에서 사용할 수 있습니다.
이 모듈에서는 Microsoft Fabric에서 Spark를 사용하여 레이크하우스에서 데이터를 수집, 처리 및 분석하는 방법을 살펴봅니다. 이 모듈에 설명된 핵심 기술과 코드는 모든 Spark 구현에 공통적이지만, Microsoft Fabric의 다른 데이터 서비스와 동일한 환경에서 Spark를 사용하기 위한 통합 도구와 기능을 사용하면 Spark 기반 데이터 처리를 전체 데이터 분석 솔루션에 더 쉽게 통합할 수 있습니다.