소개
Apache Spark는 대량의 데이터에서 데이터 정리 및 변환 작업을 수행하기 위한 강력한 플랫폼을 제공합니다. Spark 데이터 프레임 개체를 사용하면 데이터 레이크의 파일에서 데이터를 쉽게 로드하고 복잡한 수정 작업을 수행할 수 있습니다. 그런 다음, 다운스트림 처리 또는 데이터 웨어하우스로 수집하기 위해 변환된 데이터를 데이터 레이크에 다시 저장할 수 있습니다.
Azure Synapse Analytics는 데이터 수집 및 준비 워크로드의 일부로 데이터를 변환하기 위해 Spark 워크로드를 실행하는 데 사용할 수 있는 Apache Spark 풀을 제공합니다. 기본적으로 지원되는 Notebook을 사용하여 Spark 풀에서 코드를 작성하고 실행하여 데이터 분석을 준비할 수 있습니다. 그런 다음, SQL 풀과 같은 다른 Azure Synapse Analytics 기능을 사용하여 변환된 데이터를 사용할 수 있습니다.