Azure Synapse Analytics의 작동 방식
오늘날 조직의 분석 요구를 지원하기 위해 Azure Synapse Analytics는 데이터 스토리지 및 처리를 위한 중앙 집중식 서비스를 확장 가능한 아키텍처와 결합하여 연결된 서비스를 통해 일반적으로 사용되는 데이터 저장소, 처리 플랫폼 및 시각화 도구를 통합할 수 있습니다.
Azure Synapse Analytics 작업 영역 만들기 및 사용
Synapse Analytics 작업 영역은 분석 솔루션에 필요한 서비스 및 데이터 리소스를 관리할 수 있는 Synapse Analytics 서비스의 인스턴스를 정의합니다. Azure Portal을 사용하여 Azure 구독에서 대화형으로 Synapse Analytics 작업 영역을 만들거나, Azure PowerShell, Azure CLI(명령줄 인터페이스), Azure Resource Manager 또는 Bicep 템플릿을 사용하여 배포를 자동화할 수 있습니다.
Synapse Analytics 작업 영역을 만든 후에는 Azure Synapse Analytics용 웹 기반 포털인 Synapse Studio를 사용하여 해당 작업 영역에서 서비스를 관리하고 데이터 분석 작업을 수행할 수 있습니다.
데이터 레이크에서 파일 작업
Synapse Analytics 작업 영역의 핵심 리소스 중 하나는 데이터 파일을 대규모로 저장하고 처리할 수 있는 데이터 레이크입니다. 작업 영역에는 일반적으로 Azure Data Lake Storage Gen2 컨테이너에 연결된 서비스로 구현되는 기본 데이터 레이크가 있습니다. 필요에 따라 다른 스토리지 플랫폼을 기반으로 하는 여러 데이터 레이크에 연결된 서비스를 추가할 수 있습니다.
파이프라인을 사용하여 데이터 수집 및 변환
대부분의 엔터프라이즈 데이터 분석 솔루션에서 데이터는 여러 운영 원본에서 추출되어 분석을 위해 중앙 데이터 레이크 또는 데이터 웨어하우스로 전송됩니다. Azure Synapse Analytics에는 다양한 원본에서 데이터를 검색하고, 필요에 따라 데이터를 변환하고, 변환된 결과 데이터를 분석 저장소로 로드하는 데 필요한 작업을 오케스트레이션하는 파이프라인을 만들고, 실행 및 관리하기 위한 기본 제공 지원이 포함되어 있습니다.
참고
Azure Synapse Analytics의 파이프라인은 Azure Data Factory와 동일한 기본 기술을 기반으로 합니다. Azure Data Factory에 이미 익숙한 경우 기존 기술을 활용하여 Azure Synapse Analytics에서 데이터 수집 및 변환 솔루션을 빌드할 수 있습니다.
SQL을 사용하여 데이터 쿼리 및 조작
SQL(구조적 쿼리 언어)은 데이터를 쿼리하고 조작하기 위한 유비쿼터스 언어로, 많이 사용되는 Microsoft SQL Server 데이터베이스 플랫폼을 비롯한 관계형 데이터베이스의 기초입니다. Azure Synapse Analytics는 SQL Server 관계형 데이터베이스 엔진을 기반으로 하는 두 종류의 SQL 풀을 통해 SQL 기반 데이터 쿼리 및 조작을 지원합니다.
- 관계형 SQL 의미 체계를 사용하여 데이터 레이크의 파일 기반 데이터를 쿼리하는 데 최적화된 기본 제공 서버리스 풀
- 관계형 데이터 웨어하우스를 호스트하는 사용자 지정 전용 SQL 풀
Azure Synapse SQL 시스템은 분산 쿼리 처리 모델을 사용하여 SQL 작업을 병렬 처리하므로 관계형 데이터 처리를 위한 확장성이 뛰어난 솔루션이 생성됩니다. 데이터 레이크에서 파일 데이터의 비용 효율적인 분석 및 처리를 위해 기본 제공 서버리스 풀을 사용하고 전용 SQL 풀을 사용하여 엔터프라이즈 데이터 모델링 및 보고를 위한 관계형 데이터 웨어하우스를 만들 수 있습니다.
Apache Spark를 사용하여 데이터 처리 및 분석
Apache Spark는 빅 데이터 분석을 위한 오픈 소스 플랫폼입니다. Spark는 지원되는 다양한 프로그래밍 언어를 사용하여 구현할 수 있는 작업을 실행하여 데이터 레이크에서 파일의 분산 처리를 수행합니다. Spark에서 지원되는 언어로는 Python, Scala, Java, SQL 및 C#이 있습니다.
Azure Synapse Analytics에서 데이터 분석, 기계 학습 및 데이터 시각화를 위한 솔루션을 빌드할 때 하나 이상의 Spark 풀을 만들고 대화형 Notebook을 사용하여 코드와 메모를 결합할 수 있습니다.
Data Explorer를 사용하여 데이터 탐색
Azure Synapse Data Explorer는 Azure Data Explorer 서비스를 기반으로 하는 Azure Synapse Analytics의 데이터 처리 엔진입니다. Data Explorer는 KQL(Kusto 쿼리 언어)이라는 직관적인 쿼리 구문을 사용하여 일괄 처리 및 스트리밍 데이터의 고성능, 낮은 대기 시간 분석을 지원합니다.
다른 Azure 데이터 서비스와 통합
Azure Synapse Analytics는 엔드투엔드 분석 솔루션을 위해 다른 Azure 데이터 서비스와 통합할 수 있습니다. 통합 솔루션은 다음과 같습니다.
- Azure Synapse Link를 사용하면 Azure Cosmos DB, Azure SQL Database, SQL Server 및 Microsoft Power Platform Dataverse의 운영 데이터와 Azure Synapse Analytics에서 쿼리할 수 있는 분석 데이터 스토리지 간에 거의 실시간으로 동기화할 수 있습니다.
- Microsoft Power BI 통합을 사용하면 데이터 분석가는 Power BI 작업 영역을 Synapse 작업 영역에 통합하고 Azure Synapse Studio에서 대화형 데이터 시각화를 수행할 수 있습니다.
- Microsoft Purview 통합을 사용하면 조직은 Azure Synapse Analytics에서 데이터 자산을 카탈로그화할 수 있으며, 데이터 엔지니어는 데이터를 Azure Synapse Analytics에 수집하는 데이터 파이프라인을 구현할 때 훨씬 쉽게 데이터 자산을 찾고 데이터 계보를 추적할 수 있습니다.
- Azure Machine Learning 통합을 사용하면 데이터 분석가와 데이터 과학자가 예측 모델 학습 및 사용량을 분석 솔루션에 통합할 수 있습니다.