Azure でのビッグ データ ストレージ テクノロジの選択
このトピックでは、 分析データ ストア やリアルタイムのストリーミング インジェストとは対照的に、ビッグ データ ソリューション向けのデータ ストレージ オプション (具体的には、一括データ インジェストとバッチ処理用のデータ ストレージ) を比較します。
Azure でデータ ストレージを選択するときのオプション
必要に応じて、Azure にデータを取り込むためのいくつかのオプションがあります。
統合論理データ レイク:
File Storage
NoSQL データベース:
分析データベース:
Fabricの OneLake
Fabric の OneLake は、組織全体に合わせて調整された、統合された論理データ レイクです。 これは、すべての分析データの中央ハブとして機能し、すべての Microsoft Fabric テナントに含まれています。 Fabric の OneLake は、Data Lake Storage Gen2 の基盤上に構築されています。
Fabric の OneLake:
- 構造化ファイルの種類と非構造化ファイルの種類をサポートします。
- すべての表形式データをDelta Parquet形式で格納します。
- 既定で管理されるテナント境界内に単一のデータ レイクを提供します。
- 組織が所有権とアクセス ポリシーを配布できるように、テナント内のワークスペースの作成をサポートします。
- データにアクセスできるレイクハウスや倉庫など、さまざまなデータ項目の作成をサポートします。
FabricのOneLakeは、インジェスト、変換、リアルタイムの分析情報、ビジネス インテリジェンスの視覚化のための共通のストレージ場所として機能します。 さまざまな Fabric サービスを一元化し、すべてのワークロードが Fabric で使用するデータ項目を格納します。 Fabric ワークロードに適したデータストアを選択するには、 Fabric 意思決定ガイド: データストアの選択を参照してください。
Azure Storage BLOB
Azure Storage は、高い可用性セキュリティ、耐久性、スケーラビリティ、および冗長性を備えた管理対象ストレージ サービスです。 メンテナンスや重大な問題には、Microsoft がお客様に代わって対処します。 Azure Storage は、Azure が提供する最大のユビキタス ストレージ ソリューションであり、多数のサービスとツールと連携させて使用できます。
データの格納に使用できるさまざまな Azure Storage サービスがあります。 多数のデータ ソースから BLOB を格納するための最も柔軟なオプションは、 BLOB ストレージです。 BLOB は、基本的にはファイルです。 それらは、画像、ドキュメント、HTML ファイル、仮想ハード ディスク (VHD) から、ログなどのビッグ データ、データベースのバックアップまで、ほぼすべてを格納できます。 BLOB は、フォルダーに似たコンテナーに格納されます。 コンテナーには、一連の BLOB をグループ化するコンテナーが用意されています。 ストレージ アカウントに含めることができるコンテナーの数には制限がなく、1 つのコンテナーに格納できる BLOB の数にも制限はありません。
Azure Storage は、柔軟性、高可用性、および低コストという理由で、ビッグ データと分析ソリューションに適した選択肢です。 さまざまなユース ケース用のホット、クール、およびアーカイブ ストレージ層を提供します。 詳細については、 Azure Blob Storage のホット ストレージ層、クール ストレージ層、アーカイブ ストレージ層に関するページを参照してください。
Azure Blob Storage は、Hadoop からアクセスできます (HDInsight から利用できます)。 HDInsight は、クラスターの既定のファイル システムとして Azure Storage 内の BLOB コンテナーを使用できます。 HDInsight のすべてのコンポーネントは、WASB ドライバーが提供する Hadoop 分散ファイル システム (HDFS) のインターフェイスを利用して、BLOB として格納された構造化データまたは非構造化データを直接操作できます。 Azure Blob Storage には、PolyBase 機能を使用して Azure Synapse Analytics 経由でアクセスすることもできます。
Azure Storage を適切な選択肢にするその他の機能を次に示します。
- 複数のコンカレンシー制御戦略。
- ディザスター リカバリーと高可用性のオプション。
- 保存時の暗号化。
- Azure ロールベースのアクセス制御 (Azure RBAC) は、Microsoft Entra のユーザーとグループを使用してアクセスを制御します。
Data Lake Storage Gen2
データ レイク ストレージ Gen2 とは、構造化データと非構造化データの両方を含むすべてのデータを格納できる単一の一元化されたリポジトリです。 データ レイクを使用すると、組織はさまざまなデータを 1 か所に格納して、すばやく簡単にアクセスおよび分析できます。 データ レイクでは、既存の構造にデータを適合させる必要がありません。 むしろ、データを生形式でもネイティブ形式でも格納でき、通常はファイルやバイナリ ラージ オブジェクト (BLOB) として格納できます。
Data Lake Storage Gen2 は、Azure Blob Storage と Azure Data Lake Storage Gen1 の機能を集約したものです。 たとえば、Data Lake Storage Gen2 では、ファイル システム セマンティクス、ファイルレベルのセキュリティ、スケーリングが提供されます。 これらの機能は BLOB ストレージに基づいて構築されているため、高可用性およびディザスター リカバリー機能を備えた低コストの階層型ストレージも利用できます。
Data Lake Storage Gen2 によって、Azure Storage は、Azure 上にエンタープライズ データ レイクを構築するための基盤となります。 Data Lake Storage Gen2 は、当初から、何百ものギガビット単位のスループットを維持しつつ、複数のペタバイト単位の情報を利用可能にする目的で設計されているため、大量のデータを簡単に管理することができます。
Azure Cosmos DB
Azure Cosmos DB は、Microsoft が提供するグローバル分散型のマルチモデル データベースです。 Azure Cosmos DB では、世界中のあらゆる場所で 99 パーセントのユーザーの待機時間が確実に 1 桁ミリ秒となります。また、明確でわかりやすい複数の整合性モデルでパフォーマンスを細かく調整することができ、マルチホーム機能により高可用性も保証されます。
Azure Cosmos DB はスキーマに依存しません。 それは、全データのインデックスを自動的に作成します。スキーマとインデックスの管理に対処する必要はありません。 またマルチモデルでもあり、ドキュメント、キー値、グラフ、列ファミリのデータ モデルにネイティブに対応しています。
Azure Cosmos DB の機能:
HDInsight での HBase
Apache HBase は、オープン ソースの NoSQL データベースであり、Hadoop 上に構築され、Google BigTable をモデルにしています。 HBase は、大量の非構造化データと半構造化データに対するランダム アクセスと強力な一貫性を、列ファミリで整理されたスキーマなしのデータベースで実現します。
データはテーブルの行内に格納され、行内のデータは列ファミリによってグループ化されます。 HBase は、列や列内に格納されるデータの型を使用前に定義する必要がないという意味で、スキーマレスです。 オープン ソース コードは、直線的な拡張により何千ものノード上でペタバイト級のデータを扱うことができます。 また、Hadoop エコシステムの分散アプリケーションの利点であるデータの冗長性、バッチ処理などの機能を利用できます。
HDInsight の実装 では、HBase のスケールアウト アーキテクチャを使用して、テーブルの自動シャーディング、読み取りと書き込みの強力な一貫性、自動フェールオーバーなどを実現します。 また、メモリ内キャッシュを利用した読み取りと高スループットのストリーミングによる書き込みによって、パフォーマンスも拡張されています。 ほとんどの場合、 仮想ネットワークの内部に HBase クラスターを作成 して、他の HDInsight クラスターとアプリケーションがテーブルに直接アクセスできるようにします。
Azure Data Explorer
Azure Data Explorer は、ログと利用統計情報のための高速で拡張性に優れたデータ探索サービスです。 最新のソフトウェアによって生成される多数のデータ ストリームを処理できるため、データを収集、保存、分析できます。 Azure データ エクスプローラーは、Web サイト、アプリケーション、IoT デバイスなどのデータ ソースの大量の多様なデータの分析に最適です。 このデータは、診断、監視、報告、機械学習、付加的分析の各種機能に利用されます。 Azure Data Explorer を利用することでこのデータの取り込みがシンプルになり、データに対する複雑なクエリや予期しないクエリを数秒で実行できます。
Azure Data Explorer は、インジェストとクエリ処理のスループットを向上させるために、線形に スケールアウト できます。 プライベート ネットワークを有効にするために、Azure Data Explorer クラスターを 仮想ネットワークにデプロイ できます。
主要な選択条件
選択肢を絞り込むために、まず次の質問に答えてください。
マルチクラウド サポート、堅牢なガバナンス、分析ツールとのシームレスな統合を備えた統合データ レイクが必要ですか? "はい" の場合は、Fabric で OneLake を選択して、データ管理を簡素化し、コラボレーションを強化します。
あらゆる種類のテキストまたはバイナリ データ用の管理された高速のクラウドベースのストレージが必要か。 必要な場合は、ファイル ストレージ オプションまたは分析オプションのいずれかを選択します。
並列分析ワークロードと高いスループット/IOPS 用に最適化されたファイル ストレージが必要か。 必要な場合は、分析ワークロードのパフォーマンスを調整するオプションを選択します。
Schemaless データベースで非構造化または半構造化データを格納する必要があるか。 これに該当する場合は、非リレーショナル オプションまたは分析オプションのいずれかを選択します。 インデックス作成とデータベース モデルのオプションを比較します。 格納する必要があるデータの種類によっては、プライマリ データベース モデルが最大の要素になることがあります。
在住しているリージョンでサービスを利用できるか。 各 Azure サービスの利用可能リージョンを確認します。 詳細については、「リージョン別の利用可能な製品」を参照してください。
機能のマトリックス
次の表は、機能の主な相違点をまとめたものです。
Fabric の OneLake 機能
機能 | Fabricの OneLake |
---|---|
統合データ レイク | 組織全体に単一の統合データ レイクを提供し、データ サイロを排除します。 |
マルチクラウドのサポート | さまざまなクラウド プラットフォームとの統合と互換性をサポートします。 |
データ ガバナンス | データ系列、データ保護、認定、カタログ統合などの機能が含まれています。 |
一元化されたデータハブ | データの検出と管理のための一元化されたハブとして機能します。 |
分析エンジンのサポート | 複数の分析エンジンに対応。 この互換性により、さまざまなツールとテクノロジが同じデータに対して動作できるようになります。 |
セキュリティとコンプライアンス | 機密データのセキュリティを維持し、アクセスが承認されたユーザーのみに制限されるようにします。 |
使いやすさ | すべての Fabric テナントで自動的に使用でき、セットアップを必要としない、ユーザーフレンドリーな設計を提供します。 |
スケーラビリティ | さまざまなソースから大量のデータを処理できます。 |
File Storage の機能
機能 | Data Lake Storage Gen2 | Azure Blob Storage コンテナー |
---|---|---|
目的 | ビッグ データ分析ワークロードに最適化されたストレージ | さまざまなストレージ シナリオに対応する汎用オブジェクト ストア |
ユース ケース | バッチ、ストリーミング分析、および機械学習データ (ログ ファイル、IoT データ、クリック ストリーム、大規模なデータセットなど) | あらゆる種類のテキスト データまたはバイナリ データ (アプリケーション バックエンド、バックアップ データ、ストリーミング用メディア ストレージ、汎用データなど) |
構造体 | 階層型ファイル システム | フラットな名前空間を使用するオブジェクト ストア |
認証 | Microsoft Entra ID に基づいています | 共有シークレット (アカウント アクセス キー と Shared Access Signature キー)、および Azure ロールベースのアクセス制御 (Azure RBAC)に基づく |
認証プロトコル | Open Authorization (OAuth) 2.0。 呼び出しには、Microsoft Entra ID から発行された有効な JWT (JSON Web トークン) が含まれている必要があります | ハッシュベース メッセージ認証コード (HMAC)。 呼び出しには、HTTP 要求の一部に対する Base64 でエンコードされた SHA-256 ハッシュが含まれている必要があります。 |
承認 | ポータブル オペレーティング システム インターフェイス (POSIX) のアクセス制御リスト (ACL)。 Microsoft Entra ID に基づく ACL はファイル レベルとフォルダー レベルで設定できます。 | アカウントレベルの承認には、 アカウント アクセス キーを使用します。 アカウント、コンテナー、または BLOB の承認には、 Shared Access Signature キーを使用します。 |
監査 | 使用可能。 | 利用可能 |
保存時の暗号化 | 透過的、サーバー側 | 透過、サーバー側。クライアント側の暗号化 |
Developer SDK | .NET、Java、Python、Node.js | .NET、Java、Python、Node.js、C++、Ruby |
分析ワークロードのパフォーマンス | 並列分析ワークロードに最適化されたパフォーマンス。高いスループットと IOPS | 分析ワークロードに最適化されていません。 |
サイズ制限 | アカウント サイズ、ファイル サイズ、ファイル数に制限はありません。 | 具体的な制限については、 こちら |
geo 冗長 | ローカル冗長 (ローカル冗長ストレージ (LRS))、グローバル冗長 (geo 冗長ストレージ (GRS))、読み取りアクセス グローバル冗長 (読み取りアクセス geo 冗長ストレージ (RA-GRS))、ゾーン冗長 (ゾーン冗長ストレージ (ZRS)) | ローカル冗長 (LRS)、ゾーン冗長 (ZRS)、geo 冗長 (GRS)、読み取りアクセス geo 冗長 (RA-GRS)。 詳細については、「Azure Storage の冗長性」を参照してください。 |
NoSQL データベースの機能
機能 | Azure Cosmos DB | HDInsight での HBase |
---|---|---|
プライマリ データベース モデル | ドキュメント ストア、グラフ、キー値ストア、ワイド カラム ストア | ワイド カラム ストア |
セカンダリ インデックス | はい | いいえ |
SQL 言語のサポート | はい | はい (Phoenix JDBC ドライバーを使用) |
一貫性 | 強固、有界整合性制約、セッション、一貫性のあるプレフィックス、最終的 | Strong |
Azure Functions のネイティブ統合 | はい | いいえ |
自動的なグローバル分散 | はい | いいえ。最終的な整合性を指定して、リージョン間でHBase クラスターのレプリケーションを構成可能 |
価格モデル | 必要に応じて秒単位で課金され、弾力的にスケーラブルな要求ユニット (RU)。弾力的にスケーラブルなストレージ | HDInsight クラスターの分単位の料金 (ノードの水平スケーリング)、ストレージ |
分析データベースの機能
機能 | Azure Data Explorer |
---|---|
プライマリ データベース モデル | リレーショナル (列ストア)、テレメトリ、および時系列ストア |
SQL 言語のサポート | はい |
価格モデル | 弾力的にスケーラブルなクラスター インスタンス |
認証 | Microsoft Entra ID に基づいています |
保存時の暗号化 | サポートされる (カスタマー マネージド キー) |
分析ワークロードのパフォーマンス | 並列分析ワークロードに最適化されたパフォーマンス |
サイズ制限 | 線形にスケーラブル |
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパル作成者:
- Zoiner Tejada | CEO 兼アーキテクト
次のステップ
- Fabric とは
- Fabricを使用したエンドツーエンド分析の概要
- Azure クラウド ストレージ ソリューションとサービス
- ストレージ オプションを確認する
- Azure ストレージの概要
- Azure Data Explorer の概要