Azure でのバッチ処理テクノロジの選択
ビッグ データ ソリューションは、多くの場合、全体的なデータ処理ソリューションを支える個別のバッチ処理タスクで構成されています。 分析情報への即時アクセスを必要としないワークロードには、バッチ処理を使用できます。 バッチ処理は、リアルタイム処理の要件を補完できます。 また、バッチ処理を使用して複雑さのバランスを取り、実装全体のコストを削減することもできます。
バッチ処理エンジンの基本的な要件は、大量のデータを処理するためにコンピューティングをスケールアウトすることです。 リアルタイム処理とは異なり、バッチ処理では、待ち時間、つまりデータ インジェストから結果の計算までの時間が分単位から時間単位になります。
バッチ処理用テクノロジの選択
Microsoft では、バッチ処理に使用できるサービスを提供しています。
Microsoft Fabric
Microsoft Fabric は、組織向けのオールインワンの分析およびデータ プラットフォームです。 これは、エンドツーエンドの分析ソリューションのプロビジョニング、管理、および統制を簡素化するサービスとしてのソフトウェアです。 Fabric は、データ移動、処理、インジェスト、変換、レポートを処理します。 バッチ処理に使用する Fabric 機能には、Data Engineering、Data Warehouse、レイクハウス、Apache Spark 処理などがあります。 Fabric の Azure Data Factory でも、レイクハウスがサポートされています。 開発を簡素化および加速するには、AI 駆動型の Copilot を有効にすることができます。
言語: R、Python、Java、Scala、SQL
Glossary: マネージド仮想ネットワークと OneLake ロールベースのアクセス制御 (RBAC)
プライマリ ストレージ: OneLake (ショートカットとミラーリング オプションがあります)
Spark: プリハイドレート済みのスターター プールと、定義済みのノード サイズを持つカスタム Spark プール
Azure Synapse Analytics
Azure Synapse Analytics は、SQL と Spark の両方のテクノロジを単一のワークスペース構造に統合するエンタープライズ分析サービスです。 Azure Synapse Analytics を使用すると、セキュリティ、ガバナンス、管理を簡素化できます。 すべてのワークスペースには、エンドツーエンドのワークフローを作成するために使用できる統合データ パイプラインがあります。 また、大規模な分析用の専用 SQL プール、レイクを直接照会するために使用できるサーバーレス SQL エンドポイント、分散データ処理用の Spark ランタイムをプロビジョニングすることもできます。
言語: Python、Java、Scala、SQL
セキュリティ: マネージド仮想ネットワーク、RBAC とアクセス制御、Azure Data Lake Storage へのストレージ アクセス制御リスト
プライマリ ストレージ: Data Lake Storage、他のソースとの統合
Spark: 定義済みのノード サイズを使用したカスタム Spark 構成のセットアップ
Azure Databricks
Azure Databricks は、Spark ベースの分析プラットフォームです。 オープンソースの Spark 上に構築された、優れた Spark 機能を豊富に備えています。 Azure Databricks は、他の Azure サービスと統合できる Microsoft サービスです。 これには、Spark クラスター デプロイ用の追加構成が用意されています。 Azure Databricks Spark オブジェクトのガバナンスを簡素化するには、Unity Catalog が役立ちます。
言語: R、Python、Java、Scala、Spark SQL。
セキュリティ: Microsoft Entra ID を使用したユーザー認証。
プライマリ ストレージ: Azure Blob Storage、Azure Data Lake Storage、Azure Synapse Analytics、およびその他のサービスとの統合が組み込まれています。 詳細については、「データ ソース」を参照してください。
他にも次のようなメリットがあります:
Web ベースのノートブックによるコラボレーションとデータ探索
迅速なクラスターの開始、自動終了、自動スケーリング。
GPU 対応クラスターのサポート。
主要な選択条件
バッチ処理のテクノロジを選択するには、次の点を検討してください。
マネージド サービスが必要か、独自にサーバーを管理するか、どちらですか。
バッチ処理ロジックの作成は宣言型と命令型のどちらですか。
一気に大量のバッチ処理が必要になりますか。 必要になる場合は、クラスターを自動的に終了する機能を提供するオプションや、バッチ ジョブ単位の価格モデルがあるオプションを検討してください。
参照データを検索するなど、バッチ処理と共にリレーショナル データ ストアに対してクエリを実行する必要はありますか。 その必要がある場合は、外部リレーショナル ストアに照会する機能があるオプションを検討してください。
機能のマトリックス
次の表は、各サービスの機能の主な相違点をまとめたものです。
一般的な機能
機能 | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
サービスとしてのソフトウェア | 可1 | 番号 | いいえ |
管理されたサービス | いいえ | イエス | はい |
リレーショナル データ ストア | はい | イエス | はい |
価格モデル | 容量ユニット | SQL プールまたはクラスター時間 | Azure Databricks ユニット 2 とクラスター時間 |
[1] 割り当てられた Fabric のキャパシティ。
[2] Azure Databricks ユニット (DBU) は、1 時間あたりの処理能力の単位です。
その他の機能
機能 | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
自動スケール | いいえ | 番号 | はい |
スケールアウトの細分性 | Fabric SKU ごと | クラスターごとまたは SQL プールごと | クラスターごと |
データのメモリ内キャッシュ | いいえ | イエス | はい |
外部リレーショナル ストアからのクエリ | はい | いいえ | はい |
認証 | Microsoft Entra ID | SQL または Microsoft Entra ID | Microsoft Entra ID |
監査 | はい | イエス | はい |
行レベルのセキュリティ | はい | はい 1 | はい |
ファイアウォールをサポート | はい | イエス | はい |
動的データ マスク | はい | イエス | はい |
[1] フィルター述語のみ。 詳細については、「行レベルのセキュリティ」を参照してください。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパルの作成者:
- Zoiner Tejada | CEO 兼アーキテクト
- Pratima Valavala | プリンシパル ソリューション アーキテクト
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。