マスター データ管理 (MDM) 用の Microsoft Purview と CluedIn の統合
この CluedIn アーキテクチャは、取り込むデータの品質に関するメトリックを企業に提供し、ダーティ データをインテリジェントに検出し、データ エンジニアやデータ スチュワードによるクリーニングのために準備します。 独自のあいまいロジック 機械学習アルゴリズムは、ビジネス ユーザーとキュレーターがデータにラベルを付け、時間の経過と伴うデータ品質の問題を特定、修正、および防止するようにシステムに教えるのに役立ちます。
アーキテクチャ
データフロー
CluedIn ソリューションは、Azure Kubernetes Service (AKS) の Kubernetes クラスターで実行されるさまざまな機能レイヤーで構成されます。 .NET Core マイクロサービス アプリケーションの組み合わせにより、データ インジェスト、ストリーミング データ処理、キュー、ユーザー インターフェイスなどの個別の関数が処理されます。
CluedIn クロール レイヤーは、Azure Data Factory コネクタを介して、Azure SQL DB、Azure Cosmos DB、PostgreSQL、Salesforce データベースなどの顧客クラウド ソースからデータを取り込みます。
また、CluedIn は、SAP、Oracle、IBM、Hadoop などのオンプレミスのアクセス可能なシステムからの入力を受け取るか、オンプレミス エージェントを使用して非パブリック データをクロールできます。
エンタープライズ サービス バスは、管理エンドポイントのポート 5672 と 15672 を介して接続します。 クローラーはバスにデータを送信し、処理層はポート 5672 経由でバスからのデータを消費します。
トランザクション ログ レイヤーは、処理レイヤーから結果を取得します。
永続化レイヤーでは、データベースはトランザクション ログのデータを使用し、それを保持して、さまざまなデータ ストア間で最終的な整合性を提供します。 すべてのストアは高可用性 (HA) モードで実行されます。
データ仮想化とは異なり、CluedIn 永続化レイヤーはソース データの一部を取り込み、最も忠実なバージョンのデータとその構造を保持します。 この高い忠実性は、CluedIn Data Fabric が任意の形式またはモデルでデータのビジネス要求を処理できることを意味します。
データ抽象化レイヤーは、各ストアのポートを介して異なるデータ ストアに接続します。
データ アクセスは、ポート 443 を介したGraphQL、REST、および WebSockets 呼び出しを介して行われます。 GraphQLと REST ではプル モデルが使用され、WebSocket ではプッシュ モデルが使用されます。
CluedIn は、調整とクロスサイト要求フォージェリ (CSRF) 防止を通じてデータ アクセスを保護します。
CluedIn ASP.NET Core Web アプリケーションは、ポート 443 経由の REST 呼び出しとGraphQL呼び出しの組み合わせを介して通信します。
ブラウザーからアプリケーションへのすべての通信では、1 つのパブリック IP アドレスのみを必要とする一連のイングレス定義が使用されます。 運用環境では、すべての通信がセキュリティで保護されたソケット層 (SSL) 経由です。
CluedIn アプリケーションは、クリーンで処理されたデータを Power BI や Azure Synapse Analytics などの分析サービスに提供し、分析情報を生成します。 システムは、すべてのデータをバックアップし、SQL または Redis データベースに格納します。
コンポーネント
CluedIn は、コンテナー化されたアプリケーションをデプロイおよび管理するための高可用性、セキュリティで保護された、フル マネージドの Kubernetes サービスである Azure Kubernetes Service (AKS) で実行されます。 AKS は、サーバーレス Kubernetes、統合 CI/CD、エンタープライズ レベルのセキュリティとガバナンスを提供します。
CluedIn では、次のような多くのデータベース ソースとサービスが使用され、サポートされています。
- Azure SQL Database は、常に最新の状態に保たれ、必要に応じてリソースを自動的にスケーリングできるマネージド リレーショナル クラウド データベース サービスです。
- Azure SQL Managed Instance、既存のSQL Serverアプリケーションとの広範なSQL Serverエンジンの互換性を確保します。 SQL Managed Instanceは、エラスティック スケール、統合管理、クラウド課金モデルなどの Azure クラウドの利点を備えたオンプレミスのデータベース インフラストラクチャを提供します。
- Azure Cosmos DB は、最新のアプリ開発のためのフル マネージドの非リレーショナル NoSQL サーバーレス データベースです。
- スケーラブルなデータ ストレージと分析サービスである Azure Data Lake。
- Azure Data Factory、大規模なデータの取り込み、準備、変換を行うためのフル マネージドのサーバーレス データ統合ソリューションです。 CluedIn では、90 を超える組み込みの Data Factory コネクタを使用して、Amazon Redshift、Google BigQuery、HDFS、Oracle Exadata、Teradata、Salesforce、Marketo、ServiceNow、およびすべての Azure データ サービスなどのソースからデータを取得します。
CluedIn は、次のような多くの分析アプリとサービスに、処理された管理されたデータを提供します。
- Azure Databricks。Apache Spark ベースの分析サービスです。
- Azure Synapse Analytics は、エンタープライズ データ ウェアハウスとビッグ データ分析を組み合わせる無制限の分析サービスです。
- Log Analytics は、Azure Monitor ログ データからクエリを編集、実行、分析するためのAzure portal ツールです。
- インテリジェント アプリを構築するための AI サービスとコグニティブ API の包括的なファミリである Azure Cognitive Services。
- Power BI は、対話型の視覚化とビジネス インテリジェンスと使いやすいレポート作成インターフェイスを組み合わせた Microsoft ビジネス分析サービスです。
シナリオの詳細
最新のエンタープライズ企業は、データに関する多くのプロセスとプロジェクトをベースにしていますが、生データは消費のために準備する必要があります。 高度な分析から機械学習までのデータ ユース ケースには、すべて同様のデータ準備プロセスと注意が必要です。
- データ プロジェクトは、データ の検出から始まり、データの場所と使用するシステムを決定します。
- データ 統合 により、複数のデータ ソースが統合または接続されたデータ セットに統合されます。
- 次の手順では、データを正規化、標準化、調和、およびクリーンして、マシンが均一で一貫性のある高忠実度の方法でデータを処理できるようにすることです。
- 最後に、ビジネス ニーズに合わせてデータを簡単かつすぐに利用できるようにする必要があります。
これらのプロセスの間、 ガバナンス は、データの所有権、完全な追跡可能性、およびデータの配信元、処理、および使用の監査証跡を使用して、データ制御とプライバシー保護を確保する必要があります。
CluedIn プラットフォームは、これらのデータ管理プロセスと柱を、一貫性のあるエンドツーエンドのマスター データ管理 (MDM) ソリューションにカプセル化します。 CluedIn は、従来の抽出、変換、読み込み (ETL) モデル、または抽出、読み込み、変換 (ELT) モデルよりも優れた結果を生み出す、最終的な接続と呼ばれるデータ統合手法を使用します。 最終的な接続では、GraphQL クエリを使用して、さまざまなサイロ化されたデータ ソース間でデータをシームレスにブレンドします。
最終的な接続では、入力時や他のシステムへの読み込み時にデータが結合またはブレンドされることはありません。 代わりに、CluedIn はデータをそのまま読み込み、メタデータを使用してレコードにタグを付けます。 最終的には、同じタグを持つレコードがマージされるか、グラフ内にリレーションシップが作成されます。
この高度なデータマージ手法は、データ駆動型ソリューションの基盤を提供します。 CluedIn Data Fabric は、データをクレンジング、準備、モデル、管理、エンリッチ、重複除去、カタログ化するパイプラインにデータを統合して、ビジネスで使用しやすく、アクセスしやすくします。
CluedIn は、取り込むデータの品質に関するメトリックを企業に提供し、ダーティデータをインテリジェントに検出し、データ エンジニアやデータ スチュワードによるクリーニングのために準備します。 独自のあいまいロジック 機械学習アルゴリズムは、ビジネス ユーザーとキュレーターがデータにラベルを付け、時間の経過と伴うデータ品質の問題を特定、修正、および防止するようにシステムに教えるのに役立ちます。
CluedIn には、安全かつ自信を持ってデータを使用できることを保証するために、エンタープライズ レベルのガバナンスが含まれています。 CluedIn は、クリーンで管理されたデータを Power BI、Azure Databricks、Azure Synapse Analytics、Azure Cognitive Services などの分析システムに直接ストリーミングして、他のビジネスで簡単に利用できるようにします。 自動スケーリングのネイティブ サポートでは、Azure の機能を使用して、最大のデータ ワークロードにスケーラブルな環境を提供します。
潜在的なユース ケース
データの単一ビューの構築
- CluedIn のセマンティック モデリングにより、マスター データの単一ビューの構築は、従来のアプローチと比較して簡単に実現できます。 CluedIn のお客様は、CluedIn を使用して、最も重要なビジネス データの接続された履歴と高品質のビューを構築しています。 CluedIn は、People、会社、ベンダー、製品などの従来のマスター ドメインのマスタリングをサポートするだけでなく、さまざまなドメインの数に限らず、ファイル、メール、イベントなどの非構造化ドメインもサポートしています。 クリーン、エンリッチ、ガバナンス、品質管理、カタログ化されたマスター データの一元化されたリポジトリが必要な場合は、CluedIn がユース ケースに適しています。
データ ファブリック
- CluedIn は、2020 年に Gartner Cool Vendor です。これは、10、100、1000 の異なる複雑なデータソースのデータを統合されたデータ ハブに調整する機能があるためです。 さまざまなデータソースのデータを簡単にラングリングする必要がある場合は、CluedIn をデータ ファブリックとして使用してこれを実現できます。 これにより、データを事前にクリーンし、ダウンストリーム のコンシューマーに流れるデータをマスターできるストリーミング インフラストラクチャを提供できます。
マスター データの高度なマージとリンク
- CluedIn の独自のデータ モデリング アプローチでは、グラフ データベースを使用します。これにより、複雑なデータを簡単にマージしてリンクできます。 従来のアプローチとは異なり、CluedIn は、この課題を解決するために、より多くの機械学習とグラフ分析を追加して、レコードを高精度でマージ、照合、リンクします。
考慮事項
これらの考慮事項では、Azure Well-Architected Framework の柱を実装します。これは、ワークロードの品質を向上させるために使用できる一連のガイドの原則です。 詳細については、「 Microsoft Azure Well-Architected Framework」を参照してください。
信頼性
信頼性により、アプリケーションは顧客に対するコミットメントを確実に満たすことができます。 詳細については、「 信頼性の柱の概要」を参照してください。
CluedIn は、毎日の自動データベース バックアップを取得し、既定で 30 日間、長期ストレージに保持します。 プラットフォーム全体は、すべてのサブシステムのバックアップを維持する冗長なフォールト トレラント スタックに基づいて構築されています。 クロック監視システムを丸め、サービスが可能な限り維持されていないことを確認します。 CluedIn は、インフラストラクチャ冗長性に関する業界標準のプラクティスに従います。
CluedIn は、元のバージョンではなく、データの表現のみを表示して格納します。 CluedIn が破壊的なデータ侵入を検出した場合、サーバーから CluedIn データを一時的にワイプできます。 侵入が沈静化すると、CluedIn はデータを再収集して元の状態に戻します。
すべてのデータ ストアは高可用性モードで実行されます。
スケーラビリティ
CluedIn は Docker コンテナー で実行され、 Kubernetes を使用してアプリケーションのさまざまな部分をホストおよび調整します。 このアーキテクチャは、CluedIn がエラスティック環境で適切に機能し、必要なサイズとインフラストラクチャに自動的にスケーリングできることを意味します。
自動スケーリングのネイティブ サポートは、Azure の機能を適用して、最大のデータ ワークロードにスケーラブルな環境を提供します。
スキーマレス グラフ モデリングでは、ソース データからデータ モデルが自動的に推論されます。 新しいデータ ソースは、明示的に統合される必要はなく、他のすべてのデータ ソースに自動的に接続されます。 データ ソースの数は、統合の複雑さを増さなくても無限にスケーリングできます。
セキュリティ
セキュリティは、意図的な攻撃や貴重なデータとシステムの悪用に対する保証を提供します。 詳細については、「 セキュリティの柱の概要」を参照してください。
CluedIn セキュリティは、Azure Key Vault セキュリティ キー制御と Azure Monitor アクセスの追跡とログ記録を使用して、Azure RBAC を介してさまざまなサービスへのアクセス許可と制御を付与します。
認証されたユーザー アカウントに加えて、CluedIn ではシングル サインオン (SSO) と ID フレームワークもサポートされています。 CluedIn アプリケーションへの要求では、ユーザー ID と相関関係のない暗号化されたアクセス トークンが使用されます。
CluedIn は、複数のファイアウォールとプロキシ レイヤーの背後にある格納されたデータ表現を管理し、一意のキーのセットで認証します。
CluedIn は、サポートされているデータ ソースの暗号化レベル以上の 256 ビット AES 暗号化を使用して、すべてのソース データを格納します。
調整と CSRF 防止により、データ アクセスが保護されます。
DevOps
CluedIn では 、Azure Pipelines の継続的インテグレーションと継続的デリバリー (CI/CD) パイプラインを使用して、AKS 環境へのデプロイとローリング更新を処理します。
CluedIn では、データが期待どおりに変換されるように、ユニット、統合、機能テストがサポートされています。 仮想化された処理パイプラインは、サンドボックス テストのためにメモリ内で実行できます。 運用レベルのアサーションは、データの問題のデバッグと追跡に役立ちます。
テストおよび運用環境の場合、CluedIn には、Kubernetes クラスターに CluedIn をすばやくインストールするための Helm パッケージ マネージャー チャートが用意されています。 完全にスクリプト化されたデータデプロイ プロセスでは、セットアップ、テスト、ロールアウトがサポートされます。
コストの最適化
コストの最適化は、不要な経費を削減し、運用効率を向上させる方法を検討する方法について説明します。 詳細については、「 コスト最適化の柱の概要」を参照してください。
CluedIn の価格はオープンで透過的です。 価格は Web サイトで確認できます。
Azure のサイズ設定と試用版の開始
Web サイトで CluedIn の 7 日間の試用版を開始できます。これは、さまざまなサイズの環境に対して事前構築済みの Azure 見積もりを使用して Azure ホスティング コストをスコープするのにも役立ちます。
このシナリオをデプロイする
Docker を使用して開発と評価のために CluedIn をデプロイするには、「 Docker を使用した CluedIn」を参照してください。
Kubernetes クラスターに CluedIn をすばやくインストールするには、「 CluedIn with Kubernetes」を参照してください。 Helm グラフでは、CluedIn サーバー、Web サイト、およびその他の必要なサービス (ストレージやキューなど) がインストールされます。
次の手順
- CluedIn の詳細については、 CluedIn Web サイトを参照してください。
- CluedIn のドキュメントについては、 CluedIn のドキュメントを参照してください。