Azure에서 빅 데이터 스토리지 기술 선택
이 문서에서는 분석 데이터 저장소 또는 실시간 스트리밍 수집과는 반대로, 빅 데이터 솔루션에 대한 데이터 스토리지 옵션, 특히 대량 데이터 수집 및 일괄 처리를 위한 데이터 스토리지에 대해 비교합니다.
Azure에서 데이터 스토리지를 선택할 때의 옵션은 무엇인가요?
Azure에서는 사용자의 요구에 따라 몇 가지 데이터 수집 옵션을 사용할 수 있습니다.
통합 논리 데이터 레이크:
파일 스토리지:
NoSQL 데이터베이스:
분석 데이터베이스:
Fabric의 OneLake
Fabric의 OneLake는 전체 조직에 맞게 조정된 통합되고 논리적인 데이터 레이크입니다. 모든 분석 데이터의 중앙 허브 역할을 하며 모든 Microsoft Fabric 테넌트에 포함됩니다. Fabric의 OneLake는 Data Lake Storage Gen2의 기초를 기반으로 합니다.
Fabric의 OneLake:
- 구조적 및 비구조적 파일 형식을 지원합니다.
- 모든 테이블 형식 데이터를 Delta Parquet 형식으로 저장합니다.
- 기본적으로 제어되는 테넌트 경계 내에 단일 데이터 레이크를 제공합니다.
- 조직에서 소유권 및 액세스 정책을 배포할 수 있도록 테넌트 내에서 작업 영역 만들기를 지원합니다.
- 데이터에 액세스할 수 있는 레이크하우스 및 웨어하우스와 같은 다양한 데이터 항목의 생성을 지원합니다.
Fabric의 OneLake는 수집, 변환, 실시간 인사이트 및 비즈니스 인텔리전스 시각화를 위한 공통 스토리지 위치 역할을 합니다. 다양한 Fabric 서비스를 중앙 집중화하고 모든 워크로드가 Fabric에서 사용하는 데이터 항목을 저장합니다. Fabric 워크로드에 적합한 데이터 저장소를 선택하려면 Fabric 의사 결정 가이드: 데이터 저장소 선택을 참조하세요.
Azure Storage Blob
Azure Storage는 가용성, 보안, 내구성, 확장성 및 중복성이 높은 관리되는 스토리지 서비스입니다. Microsoft는 유지 관리를 담당하고 사용자에 대한 중요한 문제를 처리합니다. Azure Storage는 함께 사용할 수 많은 서비스 및 도구 때문에, Azure에서 제공하는 가장 보편적인 스토리지 솔루션입니다.
다양한 Azure Storage 서비스를 사용하여 데이터를 저장할 수 있습니다. 여러 데이터 원본의 Blob을 저장하는 가장 유연한 옵션은 Blob Storage입니다. Blob은 기본적으로 파일입니다. 사진, 문서, HTML 파일, VHD(가상 하드 디스크), 로그와 같은 빅 데이터, 데이터베이스 백업(거의 모든 항목)을 저장합니다. Blob은 폴더와 유사한 컨테이너에 저장됩니다. 컨테이너는 Blob 집합의 그룹화를 제공합니다. 한 스토리지 계정에 포함될 수 있는 컨테이너 수에 제한이 없으며, 컨테이너에 저장될 수 있는 Blob 수에도 제한이 없습니다.
Azure Storage는 유연성, 고가용성 및 저렴한 비용으로 인해 빅 데이터 및 분석 솔루션에 적합합니다. 다양한 사용 사례에 맞게 핫 스토리지 계층, 쿨 스토리지 계층 및 보관 스토리지 계층을 제공합니다. 자세한 내용은 Azure Blob Storage: 핫, 쿨 및 보관 스토리지 계층을 참조하세요.
Azure Blob Storage는 Hadoop(HDInsight를 통해 사용 가능)에서 액세스할 수 있습니다. HDInsight는 Azure Storage의 Blob 컨테이너를 클러스터의 기본 파일 시스템으로 사용합니다. WASB 드라이버에서 제공하는 HDFS(Hadoop 분산 파일 시스템) 인터페이스를 통해 HDInsight의 전체 구성 요소 집합을 Blob로 저장된 정형 또는 비정형 데이터에 대해 직접 작동할 수 있습니다. Azure Blob Storage는 PolyBase 기능을 사용하여 Azure Synapse Analytics를 통해 액세스할 수도 있습니다.
Azure Storage의 선택 가능성을 높이는 기타 기능에는 다음이 포함됩니다.
- 여러 동시성 전략합니다.
- 재해 복구 및 고가용성 옵션.
- 휴지 상태의 암호화.
- Microsoft Entra 사용자 및 그룹을 사용하여 액세스를 제어하는 RBAC(Azure 역할 기반 액세스 제어).
Data Lake Storage Gen2
Data Lake Storage Gen2는 정형 및 비정형의 모든 데이터를 저장할 수 있는 단일 중앙 리포지토리입니다. 조직에서는 데이터 레이크를 사용하여 단일 위치에서 다양한 데이터를 빠르고 쉽게 저장하고 액세스하고 분석할 수 있습니다. 데이터 레이크를 사용하면 기존 구조에 맞게 데이터를 구성할 필요가 없습니다. 대신 데이터를 일반적으로 파일 또는 Blob(Binary Large Object)에 해당하는 원시 또는 네이티브 형식으로 저장할 수 있습니다.
Data Lake Storage Gen2는 Azure Data Lake Storage Gen1의 기능을 Azure Blob Storage와 통합합니다. 예를 들어 Data Lake Storage Gen2는 파일 시스템 의미 체계, 파일 수준 보안 및 확장을 제공합니다. 이러한 기능은 Blob Storage를 기반으로 하므로 고가용성/재해 복구 기능을 갖춘 계층화된 저렴한 스토리지를 가져올 수도 있습니다.
Data Lake Storage Gen2는 Azure에서 Azure Storage를 엔터프라이즈 데이터 레이크를 구축하기 위한 기반으로 만듭니다. 처음부터 수백 기가비트의 처리량을 유지하면서 수 페타바이트의 정보에 대한 서비스를 제공하도록 설계된 Data Lake Storage Gen2는 방대한 양의 데이터를 쉽게 관리할 수 있습니다.
Azure Cosmos DB
Azure Cosmos DB는 전 세계에 배포된 Microsoft의 다중 모델 데이터베이스입니다. Azure Cosmos DB는 전 세계 어디서나 99 백분위수의 한 자리 밀리초 대기 시간을 보장하고, 제대로 정의된 여러 일관성 모델을 제공하여 성능을 미세 조정하고, 멀티 호밍 기능으로 고가용성을 보장합니다.
Azure Cosmos DB는 스키마에 구애받지 않습니다. 또한 사용자가 스키마 및 인덱스 관리를 처리하지 않아도 되도록 모든 데이터를 자동으로 인덱싱합니다. 또한 기본적으로 문서, 키-값, 그래프 및 열 패밀리 데이터 모델을 지원하는 다중 모델입니다.
Azure DB Cosmos 기능은 다음과 같습니다.
HDInsight의 HBase
Apache HBase는 Hadoop을 기반으로 하고 Google BigTable 이후에 모델링된 오픈 소스 NoSQL 데이터베이스입니다. HBase는 열 패밀리로 구성된 스키마 없는 데이터베이스에서 구조화되지 않은/반구조화된 대량 데이터에 대해 임의 액세스 및 강력한 일관성을 제공합니다.
데이터는 테이블의 행에 저장되고 행 내의 데이터는 열 제품군으로 그룹화됩니다. HBase는 사용 전에 열과 열에 저장되는 데이터 형식을 정의할 필요가 없다는 점에서 스키마 없는 데이터베이스입니다. 오픈 소스 코드는 수천 대의 노드에 있는 페타바이트 크기의 데이터를 처리할 수 있을 정도로 선형으로 확장됩니다. Hadoop 에코시스템의 분산 애플리케이션이 제공하는 데이터 중복, 일괄 처리 및 기타 기능을 사용할 수 있습니다.
HDInsight 구현은 HBase의 규모 확장 아키텍처를 사용하여 테이블 자동 분할, 읽기 및 쓰기에 대한 강력한 일관성 및 자동 장애 조치(Failover)를 제공합니다. 읽기를 위한 메모리 내 캐싱과 쓰기를 위한 높은 처리량 스트리밍을 통해 성능이 향상됩니다. 대부분의 경우 다른 HDInsight 클러스터 및 애플리케이션이 테이블에 직접 액세스할 수 있도록 가상 네트워크 내에 HBase 클러스터를 만들 수 있습니다.
Azure Data Explorer
Azure Data Explorer는 로그 및 원격 분석 데이터에 사용 가능한 빠르고 확장성이 우수한 데이터 탐색 서비스입니다. 최신 소프트웨어에서 생성되는 많은 데이터 스트림을 처리할 수 있으므로 데이터를 수집, 저장 및 분석할 수 있습니다. Azure 데이터 탐색기는 웹 사이트, 애플리케이션, IoT 디바이스 등과 같은 데이터 원본의 다양한 대규모 데이터를 분석하는 데 적합합니다. 이 데이터는 진단, 모니터링, 보고, 기계 학습 및 추가 분석 기능에 사용됩니다. Azure Data Explorer를 사용하면 이 데이터를 쉽게 수집할 수 있고 데이터에 대한 복잡한 계획되지 않은 쿼리를 몇 초 안에 처리할 수 있습니다.
Azure Data Explorer는 수집 및 쿼리 처리량을 증가시키기 위해 선형으로 확장할 수 있습니다. Azure Data Explorer 클러스터는 개인 네트워크를 사용하도록 설정하기 위해 Virtual Network에 배포할 수 있습니다.
주요 선택 조건
선택 옵션의 범위를 좁히려면 먼저 다음 질문에 답변합니다.
다중 클라우드 지원, 강력한 거버넌스 및 분석 도구와의 원활한 통합이 포함된 통합 데이터 레이크가 필요한가요? 그렇다면 간소화된 데이터 관리 및 향상된 공동 작업을 위해 Fabric의 OneLake를 선택합니다.
모든 종류의 텍스트 또는 이진 데이터에 대한 고속의 관리되는 클라우드 기반 스토리지가 필요한가요? 그렇다면 파일 스토리지 또는 분석 옵션 중 하나를 선택합니다.
병렬 분석 워크로드 및 높은 처리량/IOPS에 대해 최적화된 파일 스토리지가 필요한가요? 그렇다면 분석 워크로드 성능에 맞춰 조정되는 옵션을 선택합니다.
스키마 없는 데이터베이스에 구조화되지 않았거나 반구조화된 데이터를 저장해야 하나요? 그렇다면 비관계형 또는 분석 옵션 중 하나를 선택합니다. 인덱싱 및 데이터베이스 모델에 대한 옵션을 비교합니다. 저장해야 하는 데이터의 형식에 따라, 주 데이터베이스 모델이 가장 큰 요인이 될 수 있습니다.
사용자의 지역에서 이 서비스를 사용할 수 있나요? 각 Azure 서비스에 대한 지역별 가용성을 확인합니다. 자세한 내용은 지역별 제품 가용성을 참조하세요.
기능 매트릭스
다음 표에서는 주요 기능 차이점을 요약해서 보여 줍니다.
Fabric의 OneLake 기능
기능 | Fabric의 OneLake |
---|---|
통합 데이터 레이크 | 전체 조직에 단일 통합 데이터 레이크를 제공하여 데이터 사일로를 제거합니다. |
다중 클라우드 지원 | 다양한 클라우드 플랫폼과의 통합 및 호환성을 지원합니다. |
데이터 거버넌스 | 데이터 계보, 데이터 보호, 인증 및 카탈로그 통합과 같은 기능을 포함합니다. |
중앙 집중식 데이터 허브 | 데이터 검색 및 관리를 위한 중앙 집중식 허브 역할을 합니다. |
분석 엔진 지원 | 여러 분석 엔진과 호환됩니다. 이러한 호환성을 통해 다양한 도구와 기술이 동일한 데이터에서 작동할 수 있습니다. |
보안 및 규정 준수 | 중요한 데이터가 안전하게 유지되고 권한이 부여된 사용자로만 액세스가 제한되도록 합니다. |
사용 편의성 | 모든 Fabric 테넌트에서 자동으로 사용할 수 있으며 설정이 필요하지 않은 사용자에게 친숙한 디자인을 제공합니다. |
확장성 | 다양한 원본에서 대량의 데이터를 처리할 수 있습니다. |
파일 스토리지 기능
기능 | Data Lake Storage Gen2 | Azure Blob Storage 컨테이너 |
---|---|---|
목적 | 빅 데이터 분석 워크로드에 대해 최적화된 스토리지 | 다양한 스토리지 시나리오에 대한 범용 개체 스토리지 |
사용 사례 | 일괄 처리, 스트리밍 분석 및 로그 파일, IoT 데이터, 클릭 스트림, 대형 데이터 세트 등과 같은 기계 학습 데이터 | 애플리케이션 백 엔드, 백업 데이터, 스트리밍용 미디어 스토리지 및 범용 데이터 등과 같은 모든 종류의 텍스트 또는 이진 데이터 |
구조체 | 계층적 파일 시스템 | 단일 구조 네임스페이스를 가진 개체 저장소 |
인증 | Microsoft Entra ID를 기반으로 함 | 공유 비밀 기반 계정 액세스 키 및 공유 액세스 서명 키, Azure RBAC(Azure 역할 기반 액세스 제어) |
인증 프로토콜 | OAuth(Open Authorization) 2.0. 호출은 Microsoft Entra ID가 발급한 유효한 JWT(JSON Web Token)를 포함해야 합니다. | HMAC(해시 기반 메시지 인증 코드). 호출은 HTTP 요청 일부를 통해 Base64 인코딩된 SHA-256 해시를 포함해야 합니다. |
권한 부여 | POSIX(Portable Operating System Interface) ACL(액세스 제어 목록). Microsoft Entra ID에 따른 ACL은 파일 및 폴더 수준에서 설정할 수 있습니다. | 계정 수준 인증의 경우 계정 액세스 키를 사용합니다. 계정, 컨테이너 또는 Blob 권한 부여의 경우 공유 액세스 서명 키를 사용합니다. |
감사 | 사용 가능. | 사용 가능 |
미사용 암호화 | 투명한, 서버 쪽 | 투명한, 서버 쪽, 클라이언트 쪽 암호화 |
개발자 SDK | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, c + +, Ruby |
분석 워크로드 성능 | 병렬 분석 워크로드, 높은 처리량 및 IOPS에 대해 최적화된 성능 | 분석 워크로드에 대해 최적화되지 않음 |
크기 한도 | 계정 크기, 파일 크기 또는 파일 수에 한도가 없음 | 문서화된 특정 한도 여기 |
지리적 중복 | 로컬 중복(LRS(로컬 중복 스토리지)), 전역 중복(GRS(지역 중복 스토리지)), 읽기 액세스 전역 중복(RA-GRS(읽기 액세스 지역 중복 스토리지)), 영역 중복(ZRS(영역 중복 스토리지)). | LRS(로컬 중복), GRS(전역 중복), RA-GRS(읽기 액세스 전역 중복), ZRS(영역 중복). 자세한 내용은 Azure Storage 중복성을 참조하세요. |
NoSQL 데이터베이스 기능
기능 | Azure Cosmos DB | HDInsight의 HBase |
---|---|---|
주 데이터베이스 모델 | 문서 저장소, 그래프, 키-값 저장소, 넓은 열 저장소 | 넓은 열 저장소 |
보조 인덱스 | 예 | 예 |
SQL 언어 지원 | 예 | 예(Phoenix JDBC 드라이버 사용) |
Consistency | 강력, 제한된 부실, 세션, 일관적인 접두사, 최종 | 강력 |
네이티브 Azure Functions 통합 | 예 | 예 |
자동 글로벌 배포 | 예 | 아니요 HBase 클러스터 복제를 최종 일관성을 갖는 지역 간에 구성할 수 있습니다. |
가격 책정 모델 | 탄력적으로 확장 가능한 RU(요청 단위)에 필요에 따라 초당 요금 부과, 탄력적으로 확장 가능한 스토리지 | HDInsight 클러스터에 대해 분단위 가격 책정(수평 노드 확장), 스토리지 |
분석 데이터베이스 기능
기능 | Azure Data Explorer |
---|---|
주 데이터베이스 모델 | 관계형(열 저장소), 원격 분석 및 시계열 저장소 |
SQL 언어 지원 | 예 |
가격 책정 모델 | 탄력적으로 확장 가능한 클러스터 인스턴스 |
인증 | Microsoft Entra ID를 기반으로 함 |
미사용 데이터 암호화 | 지원됨, 고객 관리형 키 |
분석 워크로드 성능 | 병렬 분석 워크로드에 대해 최적화된 성능입니다. |
크기 한도 | 선형으로 확장 가능 |
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
보안 주체 작성자:
- Zoiner Tejada | CEO 및 설계자
다음 단계
- 패브릭이란
- Fabric을 사용하는 엔드투엔드 분석 소개
- Azure 클라우드 스토리지 솔루션 및 서비스
- 스토리지 옵션 검토
- Azure Storage 소개
- Azure Data Explorer 소개