다음을 통해 공유


레이크하우스 플랫폼의 범위

최신 데이터 및 AI 플랫폼 프레임워크

Databricks Data Intelligence Platform의 범위를 논의하려면 먼저 최신 데이터 및 AI 플랫폼에 대한 기본 프레임워크를 정의하는 것이 유용합니다.

클라우드 데이터 분석 프레임워크.

레이크하우스 범위 개요

Databricks Data Intelligence 플랫폼은 완전한 최신 데이터 플랫폼 프레임워크를 다룹니다. 레이크하우스 아키텍처를 기반으로 하며 데이터의 고유한 특성을 이해하는 데이터 인텔리전스 엔진으로 구동됩니다. ETL, ML/AI 및 DWH/BI 워크로드를 위한 개방형 통합 기반이며 Unity 카탈로그를 중앙 데이터 및 AI 거버넌스 솔루션으로 사용합니다.

플랫폼 프레임워크의 페르소나

프레임워크는 프레임워크에서 애플리케이션을 사용하는 기본 데이터 팀 멤버(가상 사용자)를 다룹니다.

  • 데이터 엔지니어는 데이터 과학자와 비즈니스 분석가에게 적시에 의사 결정 및 실시간 인사이트를 위한 정확하고 재현 가능한 데이터를 제공합니다. 매우 일관되고 신뢰할 수 있는 ETL 프로세스를 구현하여 데이터에 대한 사용자 신뢰도와 신뢰를 높입니다. 데이터를 비즈니스의 다양한 핵심 요소와 잘 통합하고 일반적으로 소프트웨어 엔지니어링 모범 사례를 따릅니다.
  • 데이터 과학자는 분석 전문 지식과 비즈니스 이해를 혼합하여 데이터를 전략적 인사이트 및 예측 모델로 변환합니다. 회고적 분석 인사이트 또는 미래 예측 모델링을 통해 비즈니스 과제를 데이터 기반 솔루션으로 변환하는 데 능숙합니다. 데이터 모델링 및 기계 학습 기술을 활용하여 데이터에서 패턴, 추세 및 예측을 공개하는 모델을 디자인, 개발 및 배포합니다. 복잡한 데이터 내러티브를 이해할 수 있는 스토리로 변환하여 비즈니스 이해 관계자가 데이터 기반 권장 사항을 이해할 수 있을 뿐만 아니라 데이터 중심 권장 사항에 따라 작업할 수 있도록 하여 조직 내에서 문제 해결에 대한 데이터 중심 접근 방식을 추진합니다.
  • ML 엔지니어(기계 학습 엔지니어)는 기계 학습 모델을 빌드, 배포 및 유지 관리하여 제품 및 솔루션에서 데이터 과학을 실제로 적용하는 데 앞장서고 있습니다. 주요 초점은 모델 개발 및 배포의 엔지니어링 측면을 중심으로 합니다. ML 엔지니어는 라이브 환경에서 기계 학습 시스템의 견고성, 안정성 및 확장성을 보장하여 데이터 품질, 인프라 및 성능과 관련된 문제를 해결합니다. AI 및 ML 모델을 운영 비즈니스 프로세스 및 사용자 관련 제품에 통합하여 비즈니스 문제를 해결하는 데 데이터 과학의 활용을 용이하게 하여 모델이 연구에 머무르는 것이 아니라 실질적인 비즈니스 가치를 창출하도록 보장합니다.
  • 비즈니스 분석가비즈니스 사용자: 비즈니스 분석가는 이해관계자와 비즈니스 팀에 실행 가능한 데이터를 제공합니다. 표준 BI 도구를 사용하여 데이터를 해석하고 관리용 보고서 또는 기타 설명서를 만드는 경우가 많습니다. 일반적으로 비기술 비즈니스 사용자 및 운영 동료가 빠른 분석 질문을 위한 첫 번째 연락 지점입니다. Databricks 플랫폼에서 제공되는 대시보드 ans buiness 앱은 비즈니스 사용자가 직접 사용할 수 있습니다.
  • 비즈니스 파트너는 점점 더 네트워크로 연결되는 비즈니스 세계에서 중요한 이해 관계자입니다. 공통의 목표를 달성하기 위해 공식적인 관계를 맺고 있는 회사 또는 개인으로 정의되며 벤더, 공급업체, 배포자 및 기타 타사 파트너를 포함할 수 있습니다. 데이터 공유는 데이터 전송 및 교환을 통해 공동 작업 및 데이터 기반 의사 결정을 향상시킬 수 있으므로 비즈니스 파트너십의 중요한 측면입니다.

플랫폼 프레임워크의 도메인

플랫폼은 여러 도메인으로 구성됩니다.

  • Storage: 클라우드에서 데이터는 주로 클라우드 공급자의 확장 가능하고 효율적이며 복원력 있는 개체 스토리지에 저장됩니다.

  • 거버넌스: 모든 데이터 및 AI 자산에 대한 액세스 제어, 감사, 메타데이터 관리, 계보 추적 및 모니터링과 같은 데이터 거버넌스와 관련된 기능입니다.

  • AI 엔진: AI 엔진은 전체 플랫폼에 대한 생성 AI 기능을 제공합니다.

  • 수집 및 변환: ETL 워크로드에 대한 기능입니다.

  • 고급 분석, ML 및 AI: 기계 학습, AI, 생성 AI 및 스트리밍 분석과 관련된 모든 기능.

  • 데이터 웨어하우스: DWH 및 BI 사용 사례를 지원하는 도메인입니다.

  • Automation: 데이터 처리, 기계 학습, 분석 파이프라인을 위한 워크플로우 관리와 CI/CD 및 MLOps 지원을 포함합니다.

  • ETL 및 DS 도구: 데이터 엔지니어, 데이터 과학자 및 ML 엔지니어가 주로 작업에 사용하는 프런트 엔드 도구입니다.

  • BI 도구: BI 분석가가 주로 작업에 사용하는 프런트 엔드 도구입니다.

  • 공동 작업: 둘 이상의 당사자 간의 데이터 공유 기능입니다.

Databricks 플랫폼의 범위

Databricks Data Intelligence 플랫폼 및 해당 구성 요소는 다음과 같은 방법으로 프레임워크에 매핑될 수 있습니다.

레이크하우스 범위의 다이어그램입니다.

다운로드: 레이크하우스 범위 - Databricks 구성 요소

Azure Databricks의 데이터 워크로드

가장 중요한 것은 Databricks Data Intelligence 플랫폼은 Apache Spark/Photon을 엔진으로 사용하여 한 플랫폼의 데이터 도메인에 대한 모든 관련 워크로드를 다룹니다.

Azure Databricks 기능 영역 개요

이는 Databricks Data Intelligence 플랫폼 기능을 프레임워크의 다른 계층(아래에서 위로)에 매핑하는 것입니다.

  • 클라우드 저장소

    Lakehouse의 모든 데이터는 클라우드 공급자의 개체 스토리지에 저장됩니다. Databricks는 AWS, Azure 및 GCP의 세 가지 클라우드 공급자를 지원합니다. 다양한 구조적 및 반구조적 형식(예: Parquet, CSV, JSON 및 Avro)과 구조화되지 않은 형식(예: 이미지 및 문서)의 파일은 일괄 처리 또는 스트리밍 프로세스를 사용하여 수집 및 변환됩니다.

    Delta Lake는 lakehouse(파일 트랜잭션, 안정성, 일관성, 업데이트 등)에 권장되는 데이터 형식이며 잠금을 방지하기 위해 완전히 오픈 소스. 또한 Delta Universal Format(UniForm) 사용하면 Iceberg 판독기 클라이언트를 사용하여 델타 테이블을 읽을 수 있습니다.

    Databricks Data Intelligence 플랫폼에서는 독점 데이터 형식이 사용되지 않습니다.

  • 데이터 및 AI 거버넌스

    Unity 카탈로그는 메타스토어의 메타데이터 관리, 액세스 제어, 감사, 데이터 검색, 데이터 계보를 포함하여 광범위한 데이터 및 AI 거버넌스 기능을 제공합니다.

    Lakehouse 모니터링은 데이터 및 AI 자산에 대한 기본 품질 메트릭과 이러한 메트릭을 시각화하기 위해 자동으로 생성된 대시보드를 제공합니다.

    외부 SQL 원본은 레이크하우스 페더레이션을 통해 레이크하우스와 Unity 카탈로그에 통합될 수 있습니다.

  • AI 엔진

    데이터 인텔리전스 플랫폼은 레이크하우스 아키텍처를 기반으로 하며 데이터 인텔리전스 엔진 DatabricksIQ에 의해 향상됩니다. DatabricksIQ는 생성 AI와 레이크하우스 아키텍처의 통합 이점을 결합하여 데이터의 고유한 의미 체계를 이해합니다. 지능형 검색 및 Databricks Assistant는 모든 사용자에 대한 플랫폼 작업을 간소화하는 AI 기반 서비스의 예입니다.

  • 오케스트레이션

    Databricks 작업을 사용하면 모든 클라우드에서 전체 데이터 및 AI 수명 주기에 대해 다양한 워크로드를 실행할 수 있습니다. 이를 통해 SQL, Spark, Notebook, DBT, ML 모델 등에 대한 델타 라이브 테이블뿐만 아니라 작업을 오케스트레이션할 수 있습니다.

    또한 플랫폼은 CI/CDMLOps 지원합니다.

  • ETL 및 DS 도구

    소비 계층에서 데이터 엔지니어와 ML 엔지니어는 일반적으로 IDE를 사용하여 플랫폼에서 작업합니다. 데이터 과학자는 종종 Notebook을 선호하고 ML 및 AI 런타임 및 기계 학습 워크플로 시스템 MLflow를 사용하여 실험을 추적하고 모델 수명 주기를 관리합니다.

  • BI 도구

    비즈니스 분석가는 일반적으로 선호하는 BI 도구를 사용하여 Databricks 데이터 웨어하우스에 액세스합니다. Databricks SQL은 다양한 분석 및 BI 도구에서 쿼리할 수 있습니다. BI 및 시각화를 참조하세요 .

    또한 플랫폼은 쿼리 및 분석 도구를 기본으로 제공합니다.

  • 협업

    Delta Sharing은 사용하는 컴퓨팅 플랫폼에 관계없이 다른 조직과 안전하게 데이터를 공유하기 위해 Databricks에서 개발한 개방형 프로토콜입니다.

    Databricks Marketplace는 데이터 제품을 교환하기 위한 공개 포럼입니다. 델타 공유를 활용하여 데이터 공급자에게 데이터 제품을 안전하게 공유할 수 있는 도구와 데이터 소비자가 필요한 데이터 및 데이터 서비스에 대한 액세스를 탐색하고 확장할 수 있는 권한을 부여합니다.

    클린 룸은 델타 공유 및 서버리스 컴퓨팅을 사용하여 서로의 데이터에 직접 액세스하지 않고도 여러 당사자가 중요한 엔터프라이즈 데이터에 대해 함께 작업할 수 있는 안전하고 개인 정보 보호 환경을 제공할 있습니다.