Azure Cosmos DB 데이터에 대한 분석 및 BI(비즈니스 인텔리전스)
Azure Cosmos DB는 작동 데이터에 대한 대규모 분석 및 BI 보고를 지원하는 다양한 옵션을 제공합니다.
Azure Cosmos DB 데이터에 대한 의미 있는 인사이트를 가져오려면 여러 파티션, 컬렉션 또는 데이터베이스에 걸쳐 쿼리해야 할 수 있습니다. 경우에 따라 이 데이터를 Azure SQL Database, Azure Data Lake Storage Gen2 등과 같은 조직의 다른 데이터 원본과 결합할 수 있습니다. 합계, 개수 등과 같은 집계 함수를 사용하여 쿼리할 수도 있습니다. 이러한 쿼리에는 더 많은 RU(요청 단위)를 소비할 가능성이 높은 계산 성능이 필요하며 결과적으로 이러한 쿼리는 잠재적으로 중요 업무용 워크로드 성능에 영향을 미칠 수 있습니다.
복잡한 분석 쿼리가 성능에 미치는 영향으로부터 트랜잭션 워크로드를 격리하기 위해 데이터베이스 데이터는 복잡한 ETL(추출-변형-로드) 파이프라인을 사용하여 야간에 중앙 위치로 수집됩니다. 이러한 ETL 기반 분석은 비즈니스 데이터에 대한 인사이트가 지연되어 복잡하고 비용이 많이 듭니다.
Azure Cosmos DB는 제로 ETL, 비용 효율적인 분석 제공 사항을 제공하여 이러한 문제를 해결합니다.
Azure Cosmos DB에 대한 제로 ETL, 거의 실시간 분석
Azure Cosmos DB는 트랜잭션 워크로드 또는 RU(요청 단위)의 성능에 영향을 주지 않고 데이터에 대한 제로 ETL, 거의 실시간 분석을 제공합니다. 이러한 기능을 사용하면 복잡한 ETL 파이프라인이 필요하지 않으므로 Azure Cosmos DB 데이터를 분석 엔진에서 원활하게 사용할 수 있습니다. 인사이트를 얻기까지의 대기 시간이 줄어들면 향상된 고객 환경을 제공하고 시장 상황이나 비즈니스 환경의 변화에 보다 신속하게 대응할 수 있습니다. 다음은 데이터에 대한 빠른 인사이트를 통해 달성할 수 있는 몇 가지 샘플 시나리오입니다.
다음 옵션을 사용하여 Azure Cosmos DB에서 제로 ETL 분석 및 BI 보고를 사용하도록 설정할 수 있습니다.
- Microsoft Fabric에 데이터 미러링
- Azure Synapse Analytics의 데이터에 액세스하기 위해 Azure Synapse Link 사용
옵션 1: Azure Cosmos DB 데이터를 Microsoft Fabric에 미러링
미러링을 사용하면 Azure Cosmos DB 데이터베이스 데이터를 Microsoft Fabric으로 원활하게 가져올 수 있습니다. 제로 ETL을 통해 Fabric의 기본 제공 분석, BI 및 AI 기능을 사용하여 Azure Cosmos DB 데이터에 대한 빠르고 풍부한 비즈니스 인사이트를 가져올 수 있습니다.
Cosmos DB 작동 데이터는 거의 실시간으로 Fabric OneLake에 증분 복제됩니다. OneLake의 데이터는 오픈 소스 델타 Parquet 형식으로 저장되며 Fabric의 모든 분석 엔진에서 사용할 수 있습니다. 개방형 액세스를 통해 Azure Databricks, Azure HDInsight 등과 같은 다양한 Azure 서비스와 함께 사용할 수 있습니다. OneLake는 또한 분석 요구 사항에 맞게 데이터 자산을 통합하는 데 도움이 됩니다. 미러링된 데이터는 레이크하우스, 웨어하우스, 바로 가기 등 OneLake의 다른 데이터와 조인될 수 있습니다. Azure SQL Database, Snowflake와 같은 다른 미러링된 데이터베이스 원본과 Azure Cosmos DB 데이터를 조인할 수도 있습니다. Azure Cosmos DB 컬렉션 또는 OneLake에 미러링된 데이터베이스를 쿼리할 수 있습니다.
Fabric의 미러링을 사용하면 여러 공급업체의 다양한 서비스를 통합할 필요가 없습니다. 대신 분석 요구 사항을 단순화하도록 설계된 사용하기 쉬운 고도로 통합된 엔드투엔드 제품을 즐길 수 있습니다. T-SQL을 사용하여 복잡한 집계 쿼리를 실행하고 Spark를 사용하여 데이터 탐색을 실행할 수 있습니다. Notebook의 데이터에 원활하게 액세스하고, 데이터 과학을 사용하여 기계 학습 모델을 빌드하고, 풍부한 Copilot 통합으로 구동되는 Direct Lake를 사용하여 Power BI 보고서를 빌드할 수 있습니다.
Azure Cosmos DB의 작동 데이터에 대한 분석을 찾고 있는 경우 미러링은 다음을 제공합니다.
- RU(요청 단위) 사용량에 영향을 주지 않고, Azure Cosmos DB 데이터에 대한 제로 ETL, 비용 효율적인 거의 실시간 분석
- 다양한 원본의 데이터를 Fabric OneLake로 쉽게 가져올 수 있습니다.
- V-순서 최적화를 통해 Delta 테이블을 처리하는 SQL 엔진의 쿼리 성능이 개선됨
- ML/Notebook과의 긴밀한 통합을 통해 Spark 엔진의 콜드 부팅 시간이 개선됨
- Direct Lake 및 Copilot을 사용하여 Power BI와 원클릭 통합
- GraphQL을 통해 쿼리 및 뷰에 액세스할 수 있는 더욱 풍부한 앱 통합
- Azure Databricks와 같은 다른 서비스에 대한 개방형 액세스
미러링을 시작하려면 "미러링 자습서 시작"를 참조하세요.
옵션 2: Azure Synapse Analytics에서 데이터에 액세스하기 위한 Azure Synapse Link
Azure Cosmos DB용 Azure Synapse Link는 Azure Cosmos DB와 Azure Synapse Analytics 간의 긴밀하고 원활한 통합을 만들어 작동 데이터에 대해 제로 ETL, 거의 실시간 분석을 가능하게 합니다. 트랜잭션 데이터는 분석에 최적화된 열 형식으로 데이터를 저장하는 분석 저장소와 원활하게 동기화됩니다.
Azure Synapse Analytics는 Azure Synapse Link를 사용하여 추가 이동 없이 분석 저장소의 이 데이터에 액세스할 수 있습니다. 비즈니스 분석가, 데이터 엔지니어 및 데이터 과학자는 이제 Synapse Spark나 Synapse SQL을 혼용하여 근 실시간 비즈니스 인텔리전스, 분석 및 기계 학습 파이프라인을 실행할 수 있습니다.
다음 이미지에서는 Microsoft Azure Cosmos DB 및 Azure Synapse Analytics와의 Azure Synapse Link 통합을 보여줍니다.
Important
이제 Microsoft Fabric의 미러링을 NoSql API용 미리 보기로 사용할 수 있습니다. 이 기능은 Azure Synapse Link의 모든 기능과 함께 더 나은 분석 성능, Fabric OneLake로 데이터 자산을 통합하는 기능, Delta Parquet 형식을 활용한 OneLake 데이터의 개방형 액세스 기능을 제공합니다. Azure Synapse Link를 고려 중인 경우 미러링을 시도하여 조직에 대한 전반적인 적합성을 평가하는 것이 좋습니다. 미러링을 시작하려면 여기를 클릭합니다.
Azure Synapse Link를 시작하려면 "Azure Synapse Link 시작"을 참조하세요.
Azure Cosmos DB의 실시간 분석 및 BI: 기타 옵션
Azure Cosmos DB 데이터에 대한 실시간 분석을 사용하도록 설정하는 몇 가지 다른 옵션이 있습니다.
- 변경 피드 사용
- Azure Cosmos DB에서 직접 Spark 커넥터 사용
- Azure Cosmos DB에서 직접 Power BI 커넥터 사용
이러한 옵션은 완전성을 위해 포함되어 있으며 단일 파티션 쿼리에 실시간으로 잘 작동하지만, 이러한 방법에는 분석 쿼리에 대해 다음과 같은 문제가 있습니다.
워크로드에 대한 성능 영향:
분석 쿼리는 복잡하고 상당한 컴퓨팅 용량을 소비하는 경향이 있습니다. Azure Cosmos DB 데이터에 대해 이러한 쿼리를 직접 실행하면 트랜잭션 쿼리에서 성능 저하가 발생할 수 있습니다.
비용 영향:
분석 쿼리가 데이터베이스나 컬렉션에 대해 직접 실행되면 분석 쿼리가 복잡해지고 더 많은 계산 능력이 필요한 경향이 있으므로 할당된 요청 단위에 대한 필요성이 늘어납니다. 집계 쿼리를 실행하는 경우 RU 사용량이 증가하면 시간이 지남에 따라 비용에 상당한 영향을 미칠 수 있습니다.
이러한 옵션 대신 트랜잭션 워크로드 성능이나 요청 단위에 영향을 주지 않고 제로 ETL 분석을 제공하는 Microsoft Fabric 또는 Azure Synapse Link의 미러링을 사용하는 것이 좋습니다.