この記事では、中小企業 (SMB) が現在の予算やスキルセットを過度に拡張することなく、従来のデータ ストアを最新化し、ビッグ データ ツールと機能を探索できるいくつかの方法について説明します。 これらの包括的なデータ ウェアハウス ソリューションは、Azure Machine Learning、Azure AI サービス、Microsoft Power Platform、Microsoft Dynamics 365、およびその他の Microsoft テクノロジとシームレスに統合されます。 これらのソリューションは、ニーズの拡大に応じて拡張できる、Microsoft Fabric 上の完全に管理されたサービスとしてのソフトウェア (SaaS) データ プラットフォームへの簡単なエントリ ポイントを提供します。
500 GB 未満のデータ ウェアハウス ソリューションにオンプレミスの SQL Server を使用する中小企業は、このパターンを使用することでメリットを得られる可能性があります。 データ ウェアハウス ソリューションへのデータ インジェストには、SQL Server Integration Services (SSIS)、SQL Server Analysis Services (SSAS)、SQL Server Reporting Services (SSRS)、一般的な SQL ストアド プロシージャ、外部の抽出、変換、ロード (ETL) および抽出、ロード、変換 (ELT) ツール、SQL Server エージェント ジョブ、SQL スナップショット レプリケーションなど、さまざまなツールが使用されます。 データ同期操作は通常、スナップショットベースで、1 日に 1 回実行され、リアルタイムのレポート要件はありません。
簡略化されたアーキテクチャ
このアーキテクチャの Visio ファイル をダウンロードします。
概念的な最新化の機会には、従来のデータ ウェアハウス ソリューションを Azure SQL Database、Azure SQL Managed Instance、および Fabric の組み合わせに移行することが含まれます。 この戦略により、従来の SQL Server および SQL Server Management Studio (SSMS) などの SQL クライアント ツールとの幅広い互換性が確保されます。 また、既存のプロセスにリフトアンドシフト オプションを提供し、サポート チームのスキルアップは最小限で済みます。 このソリューションは、包括的な近代化に向けた最初のステップとして機能し、データ ウェアハウスが拡大し、チームのスキル セットが成長するにつれて、組織がレイクハウス アプローチを完全に採用できるようにします。
Architecture
このアーキテクチャの Visio ファイル をダウンロードします。
従来の SMB データ ウェアハウスには、いくつかの種類のデータが含まれる場合があります。
ドキュメントやグラフィックなどの非構造化データ。
ログ、CSV、JSON、XML ファイルなどの半構造化データ。
ETL および ELT アクティビティにストアド プロシージャを使用するデータベースを含む、構造化されたリレーショナル データ。
データフロー
次のデータフローは、前の図に対応しています。 選択したデータ タイプの取り込みを示します。
Fabric データ パイプラインまたは Azure Data Factory パイプラインは、データ ウェアハウス ソリューションへのトランザクション データの取り込みを調整します。
パイプラインは、移行または部分的にリファクタリングされたレガシ データベースと SSIS パッケージのフローを SQL Database と SQL Managed Instance に調整します。 このリフトアンドシフト アプローチを迅速に実装することで、オンプレミスの SQL ソリューションから将来の Fabric SaaS 環境へのシームレスな移行が保証されます。 リフトアンドシフト後、データベースを段階的に最新化できます。
パイプラインは、非構造化データ、半構造化データ、構造化データを Azure Data Lake Storage に渡し、集中的に保存して他のソースと分析することができます。 データの融合によってデータを再プラットフォーム化するよりもビジネス上のメリットが大きくなる場合は、このアプローチを使用します。
Microsoft Dynamics 365 データ ソースを使用して、Fabric サーバーレス分析ツールを使用して拡張されたデータセットに集中型ビジネス インテリジェンス (BI) ダッシュボードを構築します。 融合および処理されたデータを Dynamics に戻し、Fabric 内でさらに分析するために使用できます。
ストリーミング ソースからのリアルタイム データは、Azure Event Hubs またはその他のストリーミング ソリューションを介してシステムに入力できます。 リアルタイム ダッシュボードを必要とするお客様の場合、Fabric Real-Time Analytics でこのデータをすぐに分析できます。
Data Lake Storage ショートカットを使用すると、データを集中管理された Fabric OneLake に取り込んで、さらに分析、保存、レポート作成を行うことができます。 このプロセスにより、インプレース分析が可能になり、下流での消費が容易になります。
SQL Analytics エンドポイントや Fabric Spark 機能などのサーバーレス分析ツールは、Fabric 内でオンデマンドで利用でき、プロビジョニングされたリソースは必要ありません。 サーバーレス分析ツールは次のような場合に最適です。
OneLake データに対する ETL および ELT アクティビティ。
DirectLake 機能を介して、メダリオン アーキテクチャのゴールド レイヤーを Power BI レポートに提供します。
T-SQL 形式または Python での即興的なデータ サイエンスの探索。
データ ウェアハウス エンティティの初期プロトタイピング。
Fabric は、Power BI フロントエンド レポート、機械学習、Power Apps、Azure Logic Apps、Azure Functions、Azure App Service Web アプリなど、マルチソース データセットの潜在的な消費者と緊密に統合されています。
コンポーネント
Fabric は、データ エンジニアリング、データ ウェアハウス、データ サイエンス、リアルタイム データ、BI 機能を組み合わせた分析サービスです。 このソリューションでは、 Fabric データ エンジニアリング機能 により、データ エンジニア、データ サイエンティスト、データ アナリスト、BI プロフェッショナル向けのコラボレーション プラットフォームが提供されます。 この重要なコンポーネントはサーバーレス コンピューティング エンジンを搭載しており、顧客に配信される分析情報を生成することでビジネス価値を提供します。
SQL Database と SQL Managed Instance は、クラウドベースのリレーショナル データベース サービスです。 SQL Database と SQL Managed Instance は、 SSMS を使用して、ストアド プロシージャなどの従来の成果物を開発および管理します。 このソリューションでは、これらのサービスがエンタープライズ データ ウェアハウスをホストし、ストアド プロシージャまたは外部パッケージを使用して ETL および ELT アクティビティを実行します。 SQL Database と SQL Managed Instance は、高可用性とディザスター リカバリーの要件を満たすために使用できるサービスとしてのプラットフォーム (PaaS) 環境です。 必ず要件を満たす SKU を選択してください。 詳細については、「SQL Database の高可用性」および「SQL Managed Instance の高可用性」を参照してください。
SSMS は、ストアド プロシージャなどのレガシー成果物の開発と保守に使用できる SQL インフラストラクチャを管理するための統合環境です。
Event Hubs は、リアルタイムのデータ ストリーミング プラットフォームおよびイベント取り込みサービスです。 Event Hubs は Azure データ サービスとシームレスに統合され、どこからでもデータを取り込むことができます。
代替
Azure IoT Hub を使用して、Event Hubs を置き換えたり補完したりすることができます。 ストリーミング データのソースと、レポート デバイスとのクローン作成および双方向通信が必要かどうかに基づいてソリューションを選択します。
データ統合には、Data Factory パイプラインの代わりに Fabric データ パイプライン を使用できます。 あなたの決定はいくつかの要因によって決まります。 詳細については、「Azure Data Factory から Fabric の Data Factory への移行」を参照してください。
エンタープライズ データを保存するために、SQL Database または SQL Managed Instance の代わりに Fabric Warehouse を使用できます。 この記事では、データ ウェアハウスを最新化したいお客様の市場投入までの時間を優先します。 Fabric のデータ ストア オプションの詳細については、 Fabric 決定ガイドを参照してください。
シナリオの詳細
SMB がオンプレミスのデータ ウェアハウスをクラウド向けに最新化する場合、将来の拡張性のためにビッグ データ ツールを導入するか、コスト効率、メンテナンスの容易さ、スムーズな移行のために従来の SQL ベースのソリューションを使用することができます。 ハイブリッド アプローチは、両方の長所を活かし、最新のツールと AI 機能を使用しながら既存のデータ資産を簡単に移行できるようにします。 SMB は、SQL ベースのデータ ソースをクラウドで実行し続け、必要に応じて最新化することができます。
この記事では、中小企業が現在の予算やスキルセットを拡張することなく、レガシー データ ストアを最新化し、ビッグ データ ツールと機能を探索するためのいくつかの戦略について説明します。 これらの包括的な Azure データ ウェアハウス ソリューションは、AI サービス、Microsoft Dynamics 365、Microsoft Power Platform などの Azure および Microsoft サービスとシームレスに統合されます。
考えられるユース ケース
1 TB 未満で、SSIS パッケージを使用してストアド プロシージャを調整する従来のオンプレミスのリレーショナル データ ウェアハウスを移行します。
既存の Dynamics または Microsoft Power Platform Dataverse データをバッチ処理されたリアルタイムの Data Lake ソースと統合します。
革新的な技術を使用して、集中化された Azure Data Lake Storage Gen2 データを操作します。 これらの技術には、サーバーレス分析、知識マイニング、ドメイン間のデータ融合、Fabric Copilot を含むエンドユーザー データ探索が含まれます。
電子商取引会社がデータ ウェアハウスを導入して業務を最適化できるようにします。
このソリューションは、次の場合には推奨されません。
データ ウェアハウスの グリーンフィールド展開。
1 TB を超えるか、1 年以内にそのサイズに達すると予測されるオンプレミス データ ウェアハウスの移行。
考慮事項
以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。
コスト最適化
コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳細については、「コスト最適化の設計レビュー チェックリスト」を参照してください。
Azure 料金計算ツール を使用すると、値を変更して、特定の要件がコストにどのように影響するかを理解できます。 SMB データ ウェアハウス シナリオの価格サンプルは、Azure 料金計算ツールで確認できます。
SQL Database の価格は、選択したコンピューティング レベルとサービス レベル、および仮想コアとデータベース トランザクション ユニットの数によって異なります。 この例では、プロビジョニングされたコンピューティングと 8 つの仮想コアを備えた単一のデータベースについて説明し、SQL Database でストアド プロシージャを実行する必要があることを前提としています。
Data Lake Storage Gen2 の価格は、保存するデータの量とデータの使用頻度によって異なります。 サンプル価格には、1 TB のデータ ストレージとその他のトランザクションの想定が含まれています。 1 TB はデータ レイクのサイズを指し、元のレガシー データベースのサイズを指すものではありません。
Fabric の価格は、Fabric F の容量価格または 1 人あたりのプレミアム価格によって決まります。 サーバーレス機能は、購入した専用容量の CPU とメモリを使用します。
Event Hubs の料金は、選択したレベル、プロビジョニングされたスループット ユニットの数、および受信されるイングレス トラフィックによって異なります。 この例では、Standard レベルの 1 つのスループット ユニットが 1 か月あたり 100 万を超えるイベントを処理することを想定しています。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパル作成者:
- Galina Polyakova |シニア クラウド ソリューション アーキテクト
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。
次のステップ
- トレーニング コンテンツとラボについては、 データ エンジニアの学習パスを参照してください。
- Fabricの概要。
- すべてのコース、学習パス、モジュールを閲覧する。
- 単一のデータベースを作成する。
- SQL Managed Instance を作成する。
- Data Lake Storage Gen2 で使用するストレージ アカウントを作成する。
- Azure ポータルを使用してイベント ハブを作成する.