次のアーキテクチャでは、Azure Data Factory の ETL (抽出、変換、読み込み) パイプラインで Delphix Continuous Compliance を使用して、機密データを識別してマスクする方法について説明します。
Architecture
このアーキテクチャの Visio ファイルをダウンロードします。
データフロー
このシナリオのデータ フローは次のとおりです。
- Azure Data Factory は、Copy Data アクティビティを使用して、ソース データストアから Azure File 内のコンテナーにデータを抽出します。 このコンテナーはソース データ コンテナーと呼ばれ、データは CSV 形式です。
- Data Factory は、Delphix 内で構成されたマスク ジョブの一覧をループ処理する反復子 (ForEach アクティビティ) を開始します。 これらのマスク ジョブは事前に構成され、ソース データ コンテナー内の機密データをマスクします。
- 一覧の各ジョブについて、Initiate Masking アクティビティは、Delphix CC エンジンで REST API エンドポイントを呼び出すことによって、マスク ジョブを認証および開始します。
- Delphix CC エンジンは、ソース データ コンテナーからデータを読み取り、マスク プロセスを実行します。
- このマスク プロセスで、Delphix はメモリ内のデータをマスクし、結果として得られるマスクされたデータをターゲットの Azure File コンテナー (ターゲット データ コンテナーと呼ばれます) に書き戻します。
- Data Factory は、ここで実行を監視する 2 番目の反復子 (ForEach アクティビティ) を開始します。
- 開始された実行 (マスク ジョブ) ごとに、Check Status アクティビティによってマスクの結果が確認されます。
- すべてのマスク ジョブが正常に完了すると、Data Factory は、マスクされたデータをターゲット データ コンテナーから指定された配布先に読み込みます。
コンポーネント
- Azure Data Factory は、スケールアウト、サーバーレス データ統合、およびデータ変換のための抽出、変換、読み込み (ETL) サービスです。 直感的な作成が可能なコード不要の UI を備えているほか、単一のペインで監視と管理を行えます。
- Azure Synapse Analytics は、データ統合、エンタープライズ データ ウェアハウス、ビッグ データ分析を結合する分析サービスです。 これには、データ統合を提供する Azure Data Factory パイプラインが含まれています。
- Azure Storage には、ソース データストアから抽出されたデータと、ターゲット データストアに読み込まれるマスクされたデータが格納されます。
- 省略可能: Azure Virtual Network は、Azure Synapse ワークスペースに属さない Azure リソースにプライベート ネットワーク機能を提供します。 これにより、リソース間のアクセス、セキュリティ、ルーティングを管理できます。
- その他のコンポーネント: ソースおよびターゲットとして使用されるデータストアに基づき、他のコンポーネントの追加が必要になる場合があります。 これらのデータストアは、要件によって異なります。
代替
Microsoft Presidio を使用してデータの難読化を実行することもできます。 このオプションの詳細については、「Presidio - Data Protection および De-identification SDK」を参照してください。
シナリオの詳細
近年、データが爆発的に増加しています。 データの戦略的価値を引き出すには、動的で移植可能である必要があります。 サイロに存在するデータは、その戦略的価値が制限され、分析目的で使用することは困難です。
データ サイロの分解は困難です。
- データは、共通形式に合わせて操作する必要があります。 ETL パイプラインは、レコードの各システムに適応する必要があり、現代の企業の大規模なデータ セットをサポートするようにスケーリングする必要があります。
- 機密情報に関する規制への準拠は、レコードのシステムからデータを移動するときに維持する必要があります。 データ セットのビジネス価値に影響を与えずに、顧客のコンテンツやその他の機密性の高い要素を隠す必要があります。
Azure Data Factory とは何ですか。
Azure Data Factory は、フル マネージドのサーバーレス データ統合サービスです。 データ ソースと 100 を超える組み込みのメンテナンス不要のコネクタを、追加コストなしで統合するための豊富なビジュアル エクスペリエンスを提供します。 直感的な環境でコーディングなしで ETL および ELT (抽出、読み込み、変換) プロセスを簡単に構築するか、独自のコードを記述します。 その後、統合データを Azure Synapse Analytics に配信し、ビジネス分析情報によってデータの力を引き出します。 データ ファクトリ パイプラインは、Azure Synapse Analytics でも使用できます。
Delphix Continuous Compliance (Delphix CC) とは
Delphix Continuous Compliance は、機密情報を識別し、データ マスキングを自動化します。 組織で必要な場所にセキュリティで保護されたデータを提供する、高速で自動化された API 主導の方法が提供されます。
Delphix CC と Data Factory が準拠データの自動化を解決する方法
セキュリティで保護されたデータの移動は、すべての組織にとって課題です。 Delphix を使用すると、一貫性のあるデータ コンプライアンスを簡単に実現し、Data Factory ではデータの接続と移動をシームレスに行うことができます。 Delphix と Data Factory を一緒に使用することで、業界をリードするコンプライアンスと自動化のオファリングが組み合わされ、すべてのユーザーがオンデマンドで準拠データを簡単に配信できます。
Data Factory が提供するデータ ソース コネクタを使用して、次の手順を自動化する 2 つの ETL パイプラインを作成しました。
レコードのシステムからデータを読み取り、Azure Blob Storage 上の CSV ファイルに書き込みます。
機密データを含む可能性のある列を識別し、適切なマスク アルゴリズムを割り当てるために必要な機能を Delphix Continuous Compliance に提供します。
ファイルに対して Delphix マスク ジョブを実行して、機密データ要素を類似した架空の値に置き換えます。
Data Factory でサポートされているデータストアに準拠データを読み込みます。
考えられるユース ケース
業界固有のソリューションに対して Azure Data Services を安全にアクティブ化する
- 大規模で複雑なアプリケーションで機密データを識別してマスクします。これ以外の方法で顧客のコンテンツを識別することは困難です。 Delphix を使用すると、エンド ユーザーは、SAP、Salesforce、Oracle EBS などのソースから Microsoft Synapse などの価値の高いサービス レイヤーに、準拠データを自動的に移動できます。
- Microsoft Azure によって提供される強力で包括的なコネクタを使用して、配信元に関係なく、データのロック解除、マスク、移行を安全に行います。
データの複雑な規制コンプライアンスを解決する
- データの規制要件に対処するために、完全な Delphix アルゴリズム フレームワークを自動的に配置します。
- CCPA、LGPD、HIPAA などの規制のニーズにデータ対応ルールを適用します。
"DevSecOps" シフトレフトを高速化する
- 中央 Data Factory パイプラインの機密データを体系的かつ決定論的にマスクすることで、開発者および分析パイプライン (Azure DevOps、Jenkins、Harness) やその他の自動化ワークフローに、運用グレードのデータを提供します。
- データ ソース間でデータを一貫してマスクし、統合アプリケーション テストの参照整合性を維持します。 たとえば、George という名前は常に Elliot にマスクする必要があります。また、指定された社会保障番号 (SSN) は、Oracle、Salesforce、SAP に George とその SSN が表示されるかどうかにかかわらず、常に同じ SSN にマスクする必要があります。
準拠した分析を使用して AI/ML アルゴリズムのトレーニング時間を短縮する
- トレーニング サイクルを増やさない方法でデータをマスクします。
- マスク中にデータの整合性を維持して、モデル/予測の精度に影響を与えないようにします。
任意の Azure Data Factory または Azure Synapse Analytics コネクタを使用して、特定のユース ケースを容易にすることができます。
主な利点
- 汎用的な接続性
- 参照整合性を維持する現実的で決定論的なマスク
- 重要なエンタープライズ アプリケーションの機密データの先行的な識別
- ネイティブ クラウドの実行
- テンプレート ベースのデプロイ
- 拡張性
サンプル アーキテクチャ
次の例は、匿名の顧客によって提供されました。 このマスク ユース ケースの環境を設計する方法のサンプルとしてのみ使用されています。
上記のサンプル アーキテクチャは、次の手順を実行します。
- Azure Data Factory または Azure Synapse Analytics がランディング ゾーン内のマスクされていないデータを運用環境に取り込む/接続する
- データが Azure Storage のデータ ステージングに移動される
- Delphix CC POD への運用データの NFS マウントにより、パイプラインでの Delphix CC サービスの呼び出しが可能になる
- Data Factory および下位の環境での配布のために、マスクされたデータが返される
考慮事項
以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。
セキュリティ
セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの重要な要素の概要」を参照してください。
Delphix CC は、完全に機能する現実的なデータを使用してデータ値を不可逆的にマスクし、高品質のコードを開発できるようにします。 Delphix CC には、データをユーザー仕様に合わせて変換するために使用できる豊富なアルゴリズムのセットがあります。中でも、特許を取得したアルゴリズムでは、意図的にデータの競合を生成し、同時にマスクされたデータセットで実行される可能性のある検証ルーチンに必要な特定の値でデータをソルト化することができます。 ゼロ トラストの観点から、運用者はマスクするために実際のデータにアクセスする必要はありません。 さらに、ポイント A からポイント B へのマスクされたデータの配信全体を API を使用して自動化できます。
コスト最適化
コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。
Azure 料金計算ツールで値を調整することで、特定の要件がコストに与える影響を確認できます。 Azure Synapse: コンピューティングおよびストレージのレベルを個別にスケーリングできます。 計算リソースは 1 時間単位で課金されるため、オンデマンドでそのリソースをスケーリングまたは一時停止できます。 ストレージ リソースはテラバイト単位で課金されるため、データを取り込んだ分だけコストが増加します。
Data Factory または Azure Synapse Analytics: コストは、ワークロード内で実行された読み取り/書き込み操作、監視操作、オーケストレーション アクティビティの数に基づきます。 コストは、データ ストリームが追加されるごとに、またそれぞれで処理されるデータ量が追加されると増加します。
Delphix CC: 市場に出回っている他のデータ コンプライアンス製品とは異なり、マスクにはマスクされる環境の完全な物理コピーは必要ありません。 インフラストラクチャを設定して保守する時間、インフラストラクチャ自体のコスト、マスク環境に物理データを繰り返し読み込むのに費やされる時間が原因で、環境の冗長性に関わるコストは非常に高くなる可能性があります。
パフォーマンス効率
パフォーマンス効率とは、ユーザーによって行われた要求に合わせて効率的な方法でワークロードをスケーリングできることです。 詳細については、「パフォーマンス効率の柱の概要」を参照してください。
Delphix CC は、水平および垂直方向にスケーラブルです。 変換はメモリ内で発生し、並列化できます。 製品はサービスとして、またマルチノード アプライアンスとして実行され、アプリケーションに応じてあらゆるサイズのソリューション アーキテクチャが可能になります。 Delphix は、非常に大規模なマスクされたデータ セットを提供する市場リーダーです。
マスク ストリームを増やして、1 つのジョブに複数の CPU コアを使用できます (構成に関する推奨事項とメモリの割り当てを変更する方法の詳細については、https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/ を参照してください)。
1 TB を超えるサイズのデータセットに最適なパフォーマンスを得るため、Delphix Hyperscale Masking では大規模で複雑なデータセットを多数のモジュールに分割し、複数の Continuous Compliance エンジン間でマスク ジョブを調整します。
このシナリオのデプロイ
- Azure に Delphix CC エンジンをデプロイする
- Data Factory で、Delphix Continuous Compliance: Profiling (Delphix CC Profiling) と Delphix Continuous Compliance: Masking (Delphix CC Masking) Data Factory テンプレートの両方をデプロイします。 これらのテンプレートは、Azure Synapse Analytics パイプラインと Azure Data Factory パイプラインの両方で機能します。
- データ コピー コンポーネントで、目的のソース データストアとターゲット データストアを構成します。 Web アクティビティ コンポーネントで、Delphix アプリケーションの IP アドレス/ホスト名と、Delphix CC API で認証するための資格情報を入力します。
- Delphix CC Profiling Data Factory テンプレートは、初期セットアップ時と、機密データの再識別が必要になったとき (スキーマの変更があった場合など) にいつでも実行します。 このテンプレートは、機密データを含む可能性がある列をスキャンするために必要な初期構成を Delphix CC に提供します。
- プロファイルするデータのコレクションを示すルールセットを作成します。 Delphix UI でプロファイル ジョブを実行して、そのルールセットの機密性の高いフィールドを識別して分類し、適切なマスク アルゴリズムを割り当てます。
- 必要に応じて、[Inventory] (インベントリ) 画面の結果を確認および変更します。 結果に満足し、それに応じてマスクする場合は、マスク ジョブを作成します。
- Data Factory UI に戻り、Delphix CC Masking Data Factory テンプレートを開きます。 上記の手順のマスク ジョブ ID を指定し、テンプレートを実行します。
- この手順の最後には、選択したターゲット データストアにマスクされたデータが表示されます。
注意
Delphix API に対する認証には、資格情報を持つ Delphix アプリケーションの IP アドレスとホスト名が必要です。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパルの作成者:
- Tess Maggio | プロダクト マネージャー 2
- Arun Saju | シニア スタッフ エンジニア
- David Wells | シニア ディレクター、Continuous Compliance 製品リード
その他の共同作成者:
- Jon Burchel | シニア コンテンツ開発者
- Abhishek Narain | シニア プログラム マネージャー
- Doug Smith | DevOps、CI/CD 担当グローバル プラクティス ディレクター
- Michael Torok | コミュニティ マネジメントおよびエクスペリエンス担当シニア ディレクター
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。
次のステップ
次の Delphix リソースを参照してください。
- Delphix CC を使用してセットアップする
- Delphix CC を使用して機密データが存在する場所を見つける方法について説明します
- Azure 上の Delphix を使用した Customers の表示
このソリューションの主要な Azure サービスの詳細を確認します。