소개
Apache Spark는 대규모 데이터 처리 및 분석을 위한 오픈 소스 병렬 처리 프레임워크입니다. Spark는 “빅 데이터” 처리 시나리오에서 매우 인기를 끌고 있으며 Azure HDInsight, Azure Databricks, Azure Synapse Analytics 등 여러 플랫폼 구현에서 사용할 수 있습니다.
이 모듈에서는 Azure Synapse Analytics에서 Spark를 사용하여 데이터 레이크에서 데이터를 수집, 처리 및 분석하는 방법을 살펴봅니다. 이 모듈에 설명된 핵심 기술과 코드는 모든 Spark 구현에서 일반적이지만 다른 Synapse 분석 런타임과 동일한 환경에서 Spark를 사용하는 통합 도구와 기능은 Azure Synapse Analytics에만 해당합니다.
이 모듈을 완료한 후에는 다음을 수행할 수 있습니다.
- Apache Spark의 핵심 특성 및 기능을 식별합니다.
- Azure Synapse Analytics에서 Spark 풀을 구성합니다.
- 코드를 실행하여 Spark Notebook에서 데이터를 로드, 분석, 시각화합니다.