다음을 통해 공유


Azure에서 일괄 처리 기술 선택

빅 데이터 솔루션은 종종 전체 데이터 처리 솔루션에 기여하는 개별 일괄 처리 작업으로 구성됩니다. 인사이트에 즉시 액세스할 필요가 없는 워크로드에 일괄 처리를 사용할 수 있습니다. 일괄 처리는 실시간 처리 요구 사항을 보완할 수 있습니다. 일괄 처리를 사용하여 복잡성의 균형을 맞추고 전체 구현에 대한 비용을 줄일 수도 있습니다.

일괄 처리 엔진의 기본 요구 사항은 대량의 데이터를 처리하기 위해 계산을 스케일 아웃하는 것입니다. 실시간 처리와 달리 일괄 처리에는 대기 시간 또는 데이터 수집과 결과 컴퓨팅 사이의 시간(분 또는 시간)이 있습니다.

일괄 처리 기술 선택

Microsoft는 일괄 처리를 수행하는 데 사용할 수 있는 여러 서비스를 제공합니다.

Microsoft Fabric

Microsoft Fabric 은 조직을 위한 올인원 분석 및 데이터 플랫폼입니다. 엔드투엔드 분석 솔루션을 프로비전, 관리 및 관리하는 방법을 간소화하는 서비스 제공 소프트웨어입니다. 패브릭은 데이터 이동, 처리, 수집, 변환 및 보고를 처리합니다. 일괄 처리에 사용하는 패브릭 기능에는 데이터 엔지니어링, 데이터 웨어하우스, 레이크하우스 및 Apache Spark 처리가 포함됩니다. 패브릭의 Azure Data Factory는 레이크하우스도 지원합니다. 개발을 간소화하고 가속화하기 위해 AI 기반 코필로트를 사용하도록 설정할 수 있습니다.

  • 언어: R, Python, Java, Scala 및 SQL

  • 보안: 관리형 가상 네트워크 및 OneLake RBAC(역할 기반 액세스 제어)

  • 기본 스토리지: 바로 가기 및 미러링 옵션이 있는 OneLake

  • Spark: 미리 정의된 노드 크기가 있는 미리 정해진 시작 풀 및 사용자 지정 Spark 풀

Azure Synapse Analytics

Azure Synapse Analytics 는 작업 영역의 단일 구문으로 SQL 및 Spark 기술을 함께 제공하는 엔터프라이즈 분석 서비스입니다. Azure Synapse Analytics는 보안, 거버넌스 및 관리를 간소화합니다. 모든 작업 영역에는 엔드 투 엔드 워크플로를 작성하는 데 사용할 수 있는 통합 데이터 파이프라인이 있습니다. 대규모 분석을 위한 전용 SQL 풀, 레이크를 직접 쿼리하는 데 사용할 수 있는 서버리스 SQL 엔드포인트 및 분산 데이터 처리를 위한 Spark 런타임을 프로비전할 수도 있습니다.

  • 언어: Python, Java, Scala 및 SQL

  • 보안: Azure Data Lake Storage의 관리형 가상 네트워크, RBAC 및 액세스 제어 및 스토리지 액세스 제어 목록

  • 기본 스토리지: Data Lake Storage 및 다른 원본과 통합

  • Spark: 미리 정의된 노드 크기를 사용하는 사용자 지정 Spark 구성 설정

Azure Databricks

Azure Databricks 는 Spark 기반 분석 플랫폼입니다. 오픈 소스 Spark를 기반으로 하는 풍부한 프리미엄 Spark 기능을 제공합니다. Azure Databricks는 나머지 Azure 서비스와 통합되는 Microsoft 서비스입니다. Spark 클러스터 배포를 위한 추가 구성을 제공합니다. Unity 카탈로그는 Azure Databricks Spark 개체의 거버넌스를 간소화하는 데 도움이 됩니다.

  • 언어: R, Python, Java, Scala 및 Spark SQL.

  • 보안: Microsoft Entra ID를 사용한 사용자 인증

  • 기본 스토리지: Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics 및 기타 서비스와 기본 제공 통합 자세한 내용은 데이터 원본을 참조하세요.

기타 혜택은 다음과 같습니다.

  • 협업 및 데이터 탐색용 웹 기반 Notebook을 제공합니다.

  • 빠른 클러스터 시작 시간, 자동 종료 및 자동 크기 조정

  • GPU 사용 클러스터에 대한 지원.

주요 선택 조건

일괄 처리에 사용할 기술을 선택하려면 다음 질문을 고려하세요.

  • 관리되는 서비스를 원하십니까, 아니면 자체 서버를 관리하시겠습니까?

  • 선언적 또는 명령적 방식 중에서 어떤 방식으로 일괄 처리 논리를 작성하려고 하나요?

  • 버스트에서 일괄 처리를 수행합니까? 그렇다면 클러스터를 자동으로 종료하거나 각 일괄 처리 작업에 대한 가격 책정 모델이 있는 옵션을 고려합니다.

  • 예를 들어 참조 데이터를 조회하기 위해 일괄 처리와 함께 관계형 데이터 저장소를 쿼리해야 합니까? 그렇다면 외부 관계형 저장소를 쿼리하는 기능을 제공하는 옵션을 고려합니다.

기능 매트릭스

다음 표에는 서비스 간 기능의 주요 차이점이 요약되어 있습니다.

일반 기능

기능 Fabric Azure Synapse Analytics Azure Databricks
SaaS(Software as a Service) 1 없음 아니요
관리되는 서비스
관계형 데이터 저장소
가격 책정 모델 용량 단위 SQL 풀 또는 클러스터 시간 Azure Databricks 단원 2 및 클러스터 시간

[1] 할당된 패브릭 용량입니다.

[2] Azure Databricks 단위는 시간당 처리 기능입니다.

그 외 기능

기능 Fabric Azure Synapse Analytics Azure Databricks
자동 확장 아니요
스케일 아웃 단위 패브릭별 SKU 클러스터당 또는 SQL 풀당 클러스터 기준
데이터의 메모리 내 캐싱
외부 관계형 저장소에서 쿼리 아니요
인증 Microsoft Entra ID SQL 또는 Microsoft Entra ID Microsoft Entra ID
감사
행 수준 보안 1
방화벽 지원 여부 Yes
동적 데이터 마스킹 Yes

[1] 필터 조건자만. 자세한 내용은 행 수준 보안을 참조하세요.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

주요 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계