다음을 통해 공유


데이터 레이크하우스의 상호 운용성 및 유용성

이 문서에서는 레이크하우스의 사용자 및 기타 시스템과의 상호 작용을 언급하는 상호 운용성 및 유용성 핵심 요소의 아키텍처 원칙을 설명합니다. Lakehouse의 기본 아이디어 중 하나는 다양한 사용자가 사용하는 데 훌륭한 사용자 경험을 제공하고, 다양한 외부 시스템과 상호 작용할 수 있도록 하는 것입니다.

  • 상호 운용성 시스템이 다른 시스템과 함께 작업하고 통합할 수 있는 기능입니다. 이는 여러 공급업체와 동일한 제품의 이전 버전과 이후 버전 간에 서로 다른 구성 요소와 제품 간의 상호 작용을 의미합니다.
  • 유용성 시스템이 사용자가 안전하고 효과적이며 효율적으로 작업을 수행할 수 있는 정도를 측정한 것입니다.

Databricks에 대한 상호 운용성과 유용성을 위한 레이크하우스 아키텍처 다이어그램 .

이 핵심 요소의 원칙에 따라 다음을 수행할 수 있습니다.

  • 일관되고 공동 작업적인 사용자 환경을 구현합니다.
  • 클라우드에서 시너지 효과를 활용합니다.
  • 레이크하우스 간의 통합을 간소화합니다.
  • 교육 및 활용 지원 비용을 줄입니다.

그리고 궁극적으로 더 빠른 가치 창출로 이끕니다.

상호 운용성 및 유용성 원칙

  1. 통합을 위한 표준 정의

    통합에는 다양한 측면이 있으며 여러 가지 방법으로 수행할 수 있습니다. 도구와 접근 방식이 확산되지 않도록 하려면 모범 사례를 정의해야 하며 잘 지원되고 선호하는 도구 및 커넥터 목록을 제공해야 합니다.

    주요 아키텍처 원칙 중 하나는 긴밀한 통합보다는 모듈화와 느슨한 결합입니다. 이렇게 하면 구성 요소와 워크로드 간의 종속성을 줄이고, 부작용을 제거하고, 다양한 시간 규모에서 독립적인 개발을 가능하게 합니다. 데이터 세트와 해당 스키마를 계약으로 사용합니다. 데이터 랭글링 작업(예: 데이터 레이크로 데이터 로드 및 변환)과 같은 워크로드를 가치 추가 작업(예: 보고, 대시보드 및 데이터 과학 기능 엔지니어링)과 분리합니다. 데이터 형식, 데이터 품질 및 데이터 수명 주기에 대한 지침을 사용하여 중앙 데이터 카탈로그를 정의합니다.

  2. 열린 인터페이스 및 열린 데이터 형식 사용

    종종 특정 시스템을 통해서만 데이터에 액세스할 수 있는 솔루션이 개발됩니다. 이를 통해 공급업체 종속이 발생할 수 있으며, 해당 시스템을 통한 데이터 액세스에 라이선스 요금이 부과되는 경우 비용을 크게 증가시킬 수 있습니다. 개방형 데이터 형식 및 인터페이스를 사용하면 이를 방지하는 데 도움이 됩니다. 또한 기존 시스템과의 통합을 간소화하고 이미 레이크하우스와 도구를 통합한 파트너의 에코시스템을 엽니다.

    데이터 과학용 Python 또는 R과 같은 오픈 소스 에코시스템을 사용하거나 데이터 액세스 및 액세스 권한 제어에 Spark 또는 ANSI SQL을 사용하는 경우 프로젝트에 대한 담당자를 찾는 데 더 쉽게 시간을 할애할 수 있습니다. 또한 플랫폼 간 마이그레이션을 간소화합니다.

  3. 새 사용 사례 구현 간소화

    데이터 레이크에서 데이터를 최대한 활용하려면 사용자가 플랫폼에서 사용 사례를 쉽게 배포할 수 있어야 합니다. 이는 플랫폼 액세스 및 데이터 관리에 대한 린 프로세스에서 시작됩니다. 예를 들어 플랫폼에 대한 셀프 서비스 액세스는 중앙 팀이 병목 상태가 되는 것을 방지하는 데 도움이 됩니다. 새 환경을 배포하기 위한 공유 환경 및 미리 정의된 청사진은 모든 비즈니스 사용자가 플랫폼을 신속하게 사용할 수 있도록 합니다.

  4. 데이터 일관성 및 유용성 보장

    데이터 플랫폼의 두 가지 중요한 활동은 데이터 게시데이터 소비입니다. 게시 관점에서 데이터는 제품으로 제공되어야 합니다. 게시자는 소비자를 염두에 두고 정의된 수명 주기를 따라야 하며, 데이터는 관리되는 스키마, 설명 등으로 명확하게 정의되어야 합니다.

    또한 소비자가 서로 다른 데이터 집합을 쉽게 이해하고 올바르게 결합할 수 있도록 의미 체계적으로 일관된 데이터를 제공하는 것이 중요합니다. 또한 올바르게 큐레이팅된 메타데이터 및 데이터 계보를 사용하여 중앙 카탈로그를 통해 소비자가 모든 데이터를 쉽게 검색하고 액세스할 수 있어야 합니다.

다음: 상호 운용성 및 유용성에 대한 모범 사례

상호 운용성 및 유용성의 모범 사례 을 참조하세요.