다음을 통해 공유


Fabric 데이터 엔지니어링 및 Azure Synapse Spark 비교

Fabric 데이터 엔지니어링과 Azure Synapse Spark 간의 비교는 주요 기능에 대한 요약과 Spark 풀, 구성, 라이브러리, Notebook 및 Spark 작업 정의를 포함하는 다양한 범주에 대한 심층 분석을 제공합니다.

다음 표에서는 다양한 범주에서 Azure Synapse Spark 및 Fabric Spark를 비교합니다.

범주 Azure Synapse Spark Fabric Spark
Spark 풀 Spark 풀
-
-
시작 풀 / 사용자 지정 풀
V-Order
높은 동시성
Spark 구성 풀 수준
Notebook 또는 Spark 작업 정의 수준
환경 수준
Notebook 또는 Spark 작업 정의 수준
Spark 라이브러리 작업 영역 패키지
풀 수준 패키지
인라인 패키지
-
라이브러리 환경
인라인 라이브러리
리소스 Notebook(Python, Scala, Spark SQL, R, .NET)
Spark 작업 정의(Python, Scala, .NET)
Synapse 데이터 파이프라인
파이프라인 작업(Notebook, SJD)
Notebook(Python, Scala, Spark SQL, R)
Spark 작업 정의(Python, Scala, R)
Data Factory 데이터 파이프라인
파이프라인 작업(Notebook, SJD)
데이터 기본 스토리지(ADLS Gen2)
데이터 보존(클러스터/하위 지역 기반)
기본 스토리지(OneLake)
데이터 보존(용량/하위 지역 기반)
메타데이터 내부 Hive 메타스토어(HMS)
외부 HMS(Azure SQL DB 사용)
내부 HMS(레이크하우스)
-
연결 커넥터 유형(연결된 서비스)
데이터 원본
데이터 원본 연결 작업 영역 ID
커넥터 유형(DMTS)
데이터 원본
-
보안 RBAC 및 액세스 제어
스토리지 ACL(ADLS Gen2)
프라이빗 링크
관리형 VNet(네트워크 격리)
Synapse 작업 영역 ID
DEP(데이터 반출 방지)
서비스 태그
키 자격 증명 모음(mssparkutils/연결된 서비스를 통해)
RBAC 및 액세스 제어
OneLake RBAC
프라이빗 링크
관리형 VNet
작업 영역 ID
-
서비스 태그
키 자격 증명 모음(mssparkutils를 통해)
DevOps Azure DevOps 통합
CI/CD(기본 제공 지원 없음)
Azure DevOps 통합
배포 파이프라인
개발자 경험 IDE 통합(IntelliJ)
Synapse Studio UI
공동 작업(작업 영역)
Livy API
API/SDK
mssparkutils
IDE 통합(VS Code)
Fabric UI
공동 작업(작업 영역 및 공유)
-
API/SDK
mssparkutils
로깅 및 모니터링 Spark Advisor
기본 제공 모니터링 풀 및 작업(Synapse Studio를 통해)
Spark 기록 서버
Prometheus/Grafana
Log Analytics
스토리지 계정
Event Hubs
Spark Advisor
기본 제공 모니터링 풀 및 작업(모니터링 허브를 통해)
Spark 기록 서버
-
-
-
-
비즈니스 연속성 및 재해 복구(BCDR) BCDR(데이터) ADLS Gen2 BCDR(데이터) OneLake

고려 사항 및 제한 사항:

  • DMTS 통합: Notebook 및 Spark 작업 정의를 통해 DMTS를 사용할 수 없습니다.

  • 워크로드 수준 RBAC: Fabric은 네 가지 작업 영역 역할을 지원합니다. 자세한 내용은 Microsoft Fabric에서 작업 영역의 역할을 참조하세요.

  • 관리 ID: 현재 Fabric은 Notebook에서 Azure KeyVault에 대한 작업 영역 ID 또는 관리 ID를 사용하여 Notebook 및 Spark 작업 정의 실행을 지원하지 않습니다.

  • CI/CD: Fabric API/SDK 및 배포 파이프라인을 사용할 수 있습니다.

  • Livy API와 Spark 작업을 제출 및 관리하는 방법: Livy API는 로드맵에 있지만 Fabric에서는 아직 노출되지 않았습니다. Fabric UI를 사용하여 Notebook 및 Spark 작업 정의를 만들어야 합니다.

  • Spark 로그 및 메트릭: Azure Synapse에서 Log Analytics, Blob 및 Event Hubs와 같은 자체 스토리지에 Spark 로그 및 메트릭을 내보낼 수 있습니다. API에서 작업 영역에 대한 Spark 애플리케이션 목록을 가져올 수도 있습니다. 현재 이러한 두 기능은 Fabric에서 사용할 수 없습니다.

  • 기타 고려 사항:

    • JDBC: JDBC 연결 지원은 현재 Fabric에서 사용할 수 없습니다.

Spark 풀 비교

다음 표에서는 Azure Synapse Spark 및 Fabric Spark 풀을 비교합니다.

Spark 설정 Azure Synapse Spark Fabric Spark
라이브 풀(미리 웜 인스턴스) - 예, 시작 풀
사용자 지정 풀
Spark 버전(런타임) 2.4, 3.1, 3.2, 3.3, 3.4 3.3, 3.4, 3.5
Autoscale
실행기의 동적 할당 예, 최대 200 예, 용량 기준
조정 가능한 노드 크기 예, 3-200 예, 용량 기준 1
최소 노드 구성 3개 노드 노드 1개
노드 크기 제품군 메모리 최적화, GPU 가속 메모리 최적화
노드 크기 Small-XXXLarge Small-XXLarge
자동 일시 중지 예, 사용자 지정 가능한 최소 5분 예, 사용자 지정할 수 2분
높은 동시성
V-Order
Spark autotune
네이티브 실행 엔진
동시성 제한 고정 용량 기반 변수
여러 Spark 풀 예(환경)
지능형 캐시
API/SDK 지원
  • 런타임: Fabric은 Spark 2.4, 3.1 및 3.2 버전을 지원하지 않습니다. Fabric Spark는 런타임 1.1 내에서 Delta 2.2를 사용하는 Spark 3.3, 런타임 1.2 내에서 델타 2.4를 사용하는 Spark 3.4, 런타임 1.3 내에서 델타 3.1을 사용하는 Spark 3.5를 지원합니다.

  • 자동크기조정: Azure Synapse Spark에서 풀은 노드 크기에 관계없이 최대 200개의 노드까지 확장할 수 있습니다. Fabric에서 노드의 최대 수는 노드 크기 및 프로비전된 용량의 영향을 받습니다. F64 SKU에 대한 다음 예를 참조하세요.

    Spark 풀 크기 Azure Synapse Spark Fabric Spark(사용자 지정 풀, SKU F64)
    적은 최소 3, 최대: 200 최소 1, 최대 32
    중간 최소 3, 최대: 200 최소 1, 최대: 16
    대형 최소 3, 최대: 200 최소: 1, 최대: 8
    X-Large 최소 3, 최대: 200 최소: 1, 최대: 4
    XX-Large 최소 3, 최대: 200 최소 1, 최대: 2
  • 조정 가능한 노드 크기: Azure Synapse Spark에서 최대 200개의 노드를 사용할 수 있습니다. Fabric에서 사용자 지정 Spark 풀에 포함할 수 있는 노드 수는 노드 크기 및 Fabric 용량에 따라 달라집니다. 용량은 Azure에서 사용할 수 있는 컴퓨팅 능력의 측정값입니다. 이를 생각하는 한 가지 방법은 두 개의 Spark vCore(Spark의 컴퓨팅 능력 단위)가 하나의 용량 단위와 같다는 것입니다. 예를 들어 Fabric 용량 SKU F64에는 128개의 Spark VCore에 해당하는 64개의 용량 단위가 있습니다. 따라서 작은 노드 크기를 선택하는 경우 풀에 최대 32개의 노드를 포함할 수 있습니다(128/4 = 32). 그런 다음 노드 크기당 용량/vCore의 총 vCore 수 = 사용 가능한 총 노드 수입니다. 자세한 내용은 Spark Compute를 참조하세요.

  • 노드 크기 패밀리: Fabric Spark 풀은 현재 메모리 최적화 노드 크기 패밀리만 지원합니다. Azure Synapse에서 GPU 가속 SKU Spark 풀을 사용하는 경우 Fabric에서 사용할 수 없습니다.

  • 노드 크기: xx-large 노드 크기는 Azure Synapse에서 432GB의 메모리를 제공하는 반면에 Fabric에서 동일한 노드 크기는 64개의 vCore를 포함하여 512GB입니다. 노드 크기의 나머지 부분(x-large까지 작음)은 Azure SynapseFabric 모두에서 동일한 vCore 및 메모리를 갖습니다.

  • 자동 일시 중지: Azure Synapse Spark에서 사용하도록 설정하면 Apache Spark 풀이 지정된 유휴 시간 후에 자동으로 일시 중지됩니다. 이 설정은 Azure Synapse에서 구성할 수 있지만(최소 5분) Fabric에서 사용자 지정 풀에는 세션이 만료된 후 2분이라는 제한할 수 없는 기본 자동 일시 중지 기간이 있습니다. 기본 세션 만료는 Fabric에서 20분으로 설정됩니다.

  • 높은 동시성: Fabric은 Notebook에서 높은 동시성을 지원합니다. 자세한 내용은 Fabric Spark의 높은 동시성 모드를 참조하세요.

  • 동시성 제한: 동시성 측면에서 Azure Synapse Spark는 Spark 풀당 50개의 동시 실행 작업과 Spark 풀당 200개의 대기 중인 작업으로 제한됩니다. 최대 활성 작업은 Spark 풀당 250개, 작업 영역당 1000개입니다. Microsoft Fabric Spark에서 용량 SKU는 동시성 제한을 정의합니다. SKU에는 최대 동시 작업에 대한 제한이 1에서 512까지로 다양합니다. 또한 Fabric Spark에는 동시성을 관리하고 사용량이 많은 시간에도 원활한 작업을 보장하기 위한 동적 예약 기반 제한 시스템이 있습니다. 자세한 내용은 Microsoft Fabric Spark에서 동시성 제한Fabric 용량을 참조하세요.

  • 여러 Spark 풀: 여러 Spark 풀을 사용하려면 Fabric 환경을 사용하여 Notebook 또는 Spark 작업 정의별로 풀을 선택합니다. 자세한 내용은 Microsoft Fabric에서 환경 생성, 구성 및 사용을 참조하세요.

참고 항목

Azure Synapse Spark 풀을 Fabric으로 마이그레이션하는 방법을 알아봅니다.

Spark 구성 비교

Spark 구성은 다음과 같은 다양한 수준에서 적용할 수 있습니다.

  • 환경 수준: 이러한 구성은 환경의 모든 Spark 작업에 대한 기본 구성으로 사용됩니다.
  • 인라인 수준: Notebook 및 Spark 작업 정의를 사용하여 Spark 구성을 인라인으로 설정합니다.

두 옵션은 모두 Azure Synapse Spark 및 Fabric에서 지원되지만 몇 가지 고려 사항이 있습니다.

Spark 구성 Azure Synapse Spark Fabric Spark
환경 수준 예, 풀 예, 환경
인라인
Import/Export 예(환경의 .yml)
API/SDK 지원
  • 환경 수준: Azure Synapse에서 여러 Spark 구성을 정의하고 다른 Spark 풀에 할당할 수 있습니다. 환경을 사용하여 Fabric에서 이 작업을 수행할 수 있습니다.

  • 인라인: Azure Synapse에서 Notebook 및 Spark 작업 모두 서로 다른 Spark 구성 연결을 지원합니다. Fabric에서 세션 수준 구성은 spark.conf.set(<conf_name>, <conf_value>) 설정을 사용하여 사용자 지정됩니다. 일괄 처리 작업의 경우 SparkConf를 통해 구성을 적용할 수도 있습니다.

  • 가져오기/내보내기: Spark 구성에 대한 이 옵션은 Fabric 환경에서 사용할 수 있습니다.

  • 기타 고려 사항:

    • 변경할 수 없는 Spark 구성: 일부 Spark 구성은 변경할 수 없습니다. AnalysisException: Can't modify the value of a Spark config: <config_name> 메시지가 표시되면 해당 속성은 변경할 수 없습니다.
    • FAIR 스케줄러: FAIR 스케줄러는 높은 동시성 모드에서 사용됩니다.
    • V-Order: V-Order 는 Fabric Spark 풀에서 기본적으로 사용하도록 설정된 parquet 파일에 적용되는 쓰기 시간 최적화입니다.
    • 최적화된 쓰기: 최적화된 쓰기는 Azure Synapse에서 기본적으로 사용하지 않도록 설정되지만 Fabric Spark에는 기본적으로 사용하도록 설정됩니다.

참고 항목

Azure Synapse에서 Fabric으로 Spark 구성을 마이그레이션하는 방법을 알아봅니다.

Spark 라이브러리 비교

다른 수준에서 Spark 라이브러리를 적용할 수 있습니다.

  • 작업 영역 수준: 이러한 라이브러리를 작업 영역에 업로드/설치할 수 없으며 나중에 Azure Synapse의 특정 Spark 풀에 할당할 수 없습니다.
  • 환경 수준: 환경에 라이브러리를 업로드/설치할 수 있습니다. 환경 수준 라이브러리는 환경에서 실행되는 모든 Notebook 및 Spark 작업 정의에서 사용할 수 있습니다.
  • 인라인: 환경 수준 라이브러리 외에도 인라인 라이브러리를 지정할 수도 있습니다. 예: Notebook 세션의 시작 부분

고려 사항:

Spark 라이브러리 Azure Synapse Spark Fabric Spark
작업 영역 수준
환경 수준 예, 풀 예, 환경
인라인
Import/Export
API/SDK 지원
  • 기타 고려 사항:
    • 기본 제공 라이브러리: Fabric 및 Azure Synapse는 Spark의 공통 코어를 공유하지만 런타임 라이브러리의 지원은 약간 다를 수 있습니다. 일반적으로 코드 사용은 일부 예외와 호환됩니다. 이 경우 사용자는 컴파일, 사용자 지정 라이브러리 추가 및 구문 조정이 필요할 수 있습니다. 여기에서 기본 제공 Fabric Spark 런타임 라이브러리를 참조하세요.

참고 항목

Azure Synapse Spark 라이브러리를 Fabric으로 마이그레이션하는 방법을 알아봅니다.

Notebook 비교

Notebook 및 Spark 작업 정의는 Fabric에서 Apache Spark 작업을 개발하기 위한 기본 코드 항목입니다. Azure Synapse Spark NotebookFabric Spark Notebook 간에는 몇 가지 차이점이 있습니다.

Notebook 기능 Azure Synapse Spark Fabric Spark
Import/Export
세션 구성 예, UI 및 인라인 예, UI(환경) 및 인라인
IntelliSense
mssparkutils
Notebook 리소스
공동 작업
높은 동시성
.NET for Spark C#
파이프라인 활동 지원
예약된 기본 제공 실행 지원
API/SDK 지원
  • mssparkutils: DMTS 연결은 아직 Fabric에서 지원되지 않으므로 현재 getToken and getSecret은 Fabric에서 mssparkutils.credentials에 대해 지원됩니다.

  • Notebook 리소스: Fabric Notebook은 폴더 및 파일을 관리하는 데 도움이 되는 Unix와 유사한 파일 시스템을 제공합니다. 자세한 내용은 Microsoft Fabric Notebook을 사용하는 방법을 참조하세요.

  • 공동 작업: Fabric Notebook은 여러 사용자가 동일한 Notebook을 편집할 수 있도록 지원하는 공동 작업 항목입니다. 자세한 내용은 Microsoft Fabric Notebook을 사용하는 방법을 참조하세요.

  • 높은 동시성: Fabric에서는 Notebook을 높은 동시성 세션에 연결할 수 있습니다. 이 옵션은 Azure Synapse에서 ThreadPoolExecutor를 사용하는 사용자를 위한 대안입니다. 자세한 내용은 Fabric Notebook에 대한 높은 동시성 모드 구성을 참조하세요.

  • .NET for Spark C#: Fabric은 .NET Spark(C#)를 지원하지 않습니다. 그러나 C# 또는 F#으로 작성된 기존 워크로드를 사용하는 사용자가 Python 또는 Scala마이그레이션하는 것이 좋습니다.

  • 기본 제공 예약 실행 지원: Fabric은 Notebook에 대해 예약된 실행을 지원합니다.

  • 기타 고려 사항:

    • 특정 Spark 버전에서만 지원되는 기능을 Notebook 내에서 사용할 수 있습니다. Spark 2.4 및 3.1은 Fabric에서 지원되지 않습니다.
    • Notebook 또는 Spark 작업이 서로 다른 데이터 원본 연결 또는 탑재 지점이 있는 연결된 서비스를 사용하는 경우 외부 데이터 원본 및 싱크에 대한 연결을 처리하는 대체 방법을 사용하도록 Spark 작업을 수정해야 합니다. Spark 코드와 가용 Spark 라이브러리를 사용하여 데이터 원본에 연결합니다.

참고 항목

Azure Synapse에서 Fabric으로 Notebook을 마이그레이션하는 방법을 알아봅니다.

Spark 작업 정의 비교

중요한 Spark 작업 정의 고려 사항:

Spark 작업 기능 Azure Synapse Spark Fabric Spark
PySpark
Scala
.NET for Spark C#
SparkR
Import/Export 예(UI)
파이프라인 활동 지원
예약된 기본 제공 실행 지원
재시도 정책
API/SDK 지원
  • Spark 작업: .py/.R/jar 파일을 가져올 수 있습니다. Fabric은 SparkR을 지원합니다. Spark 작업 정의는 참조 파일, 명령줄 인수, Spark 구성 및 레이크하우스 참조를 지원합니다.

  • 가져오기/내보내기: Azure Synapse에서는 UI에서 json 기반 Spark 작업 정의를 가져오거나 내보낼 수 있습니다. Fabric에서는 아직 이 기능을 사용할 수 없습니다.

  • .NET for Spark C#: Fabric은 .NET Spark(C#)를 지원하지 않습니다. C# 또는 F#으로 작성된 기존 워크로드가 있는 사용자는 Python 또는 Scala로 마이그레이션하는 것이 좋습니다.

  • 예약된 기본 제공 실행 지원: Fabric은 Spark 작업 정의에 대해 예약된 실행을 지원합니다.

  • 재시도 정책: 이 옵션을 사용하면 사용자가 Spark 구조 스트리밍 작업을 무기한 실행할 수 있습니다.

Hive 메타스토어(HMS) 비교

Hive 메타스토어(HMS) 차이점 및 고려 사항:

HMS 형식 Azure Synapse Spark Fabric Spark
내부 HMS 예(레이크하우스)
외부부 HMS
  • 외부 HMS: Fabric은 현재 카탈로그 API 및 외부 Hive 메타스토어(HMS)에 대한 액세스를 지원하지 않습니다.