Microsoft synapse サーバーレスおよびデータ ウェアハウスのデータ品質
Azure Synapse Analytics は、データ ウェアハウスとビッグ データ システム間で分析を行う時間を短縮するエンタープライズ分析サービスです。 エンタープライズ データ ウェアハウスで使用される最高の SQL テクノロジ、ビッグ データ用の Apache Spark テクノロジ、ログと時系列分析用の Azure Data Explorerが組み合わさっています。
Azure Synapseは、エンタープライズ データ ウェアハウスとビッグ データ分析を組み合わせる無制限の分析サービスです。 サーバーレスリソースまたは専用リソースを使用して、用語に関するデータを自由に照会できます。詳細については、ファブリックのドキュメントAzure Synapse確認してください。
専用 Synapse Data Warehouse (DWH) テーブル EMPLOYEE のインスタンスと、SynapseSalesDelta テーブルを使用したサーバーレス データベース (SQL_ON_DEMAND) を含む synapse ワークスペースの例。
スキャンされると、資産は Microsoft Purview で使用できます。 Synapse Analytics Dedicated インスタンスの Employee Table の例を次に示します。
Azure Synapse分析専用 (Data Warehouse)
データ マップ スキャンを設定する
Azure Synapse Analytics Dedicated (Data Warehouse) をスキャンするには、ドキュメントに従います。また、Dedicated DWH インスタンスに必要な MI アクセス許可を付与するには、ドキュメントに従います。
スキャンすると、資産は Microsoft Purview カタログで入手できます。 Synapse Analytics Dedicated インスタンスの Employee Table の例を次に示します。
synapse 専用データ ウェアハウスへの接続を設定する
この時点で、スキャンされた資産をカタログ化およびガバナンスの準備ができました。 スキャンした資産をガバナンス ドメイン Sele の Data Product に関連付けます。 [データ品質] タブで、新しいAzure SQLデータベース接続を追加します。手動で入力したデータベース名を取得します。
[データ品質] > [ガバナンス ドメイン] > [管理] タブを選択して接続を作成します。
[接続] ページで接続を構成します。
- 接続名と説明を追加します。
- [ソースの種類] Azure Synapse [Analytics] を選択します。
- [ Azure サブスクリプション] を選択します。
- [ ワークスペース名] を選択します。
- [ 専用 SQL エンドポイント] を選択します。
- サーバーレス SQL エンドポイントを選択します。
- [ エンドポイントの種類] を選択します。
- [ データベース] を選択します。
- 資格情報として MSI を追加します。
接続をテストします。 データ ソース接続を構成し、正常にテストしたら、データ プロファイルとデータ品質スキャンの構成と実行に進むことができます。
Synapse データ ソースがプライベート エンドポイントの背後にある場合は、マネージド vNet を有効にする必要があります。 マネージド vNet を構成する方法に関するドキュメントに従います。
重要
データ品質スチュワードは、データ品質接続を設定するために synapse 専用データ ウェアハウスへの読み取り専用アクセス権が必要です。 マネージド vNet のセットアップでは、接続をテストできません。
Synapse 専用データ ウェアハウス内のデータのプロファイリングとデータ品質スキャン
接続のセットアップが正常に完了したら、synapse ウェアハウスでデータのプロファイリング、作成、適用、およびデータの DQ スキャンを実行できます。 以下のドキュメントで説明されているステップバイステップのガイドラインに従ってください。
重要
- クエリのパフォーマンスと実行の成功は、お客様が専用データベース インスタンスに対して持つ DW 構成によって異なります。
- それぞれの DQ 評価ジョブ、またはその他の DQ ジョブが専用 DW 上の接続を誘導し、インスタンスがプロビジョニングされている場合やコンカレンシー制限で失敗した場合は失敗する可能性があるため、お客様は DW 構成を認識する必要があります。 そのコンカレンシーには、任意のインスタンスに対して非常にハードな制限があります。
- コンカレンシーの制限により、ジョブが終了する可能性があります。 DW 制限 (1000 DW など) は、クエリを実行する機能を提供します。
- vNet のサポートは、GA グレードのサポートによりプレビュー段階にあります。
Azure Synapse Analytics Serverless
データ マップ スキャンのセットアップ
Analytics Serverless Azure Synapseスキャンするには、ドキュメントに従います。また、Dedicated DWH インスタンスに必要な MI アクセス許可を付与するには、ドキュメントに従います。 スキャンが完了すると、サーバーレス資産は Microsoft Purview カタログで使用できます。
synapse Serverless への接続を設定する
この時点で、スキャンされた資産をカタログ化およびガバナンスの準備ができました。 スキャンした資産をガバナンス ドメイン Sele の Data Product に関連付けます。 [データ品質] で、新しいAzure SQLデータベース接続を追加します。手動で入力したデータベース名を取得します。
[ データ品質>Governance Domain>Manage タブを選択して接続を作成します。
[接続] ページで接続を構成します。
- 接続名と説明を追加します。
- [ソースの種類] Azure Synapse [Analytics] を選択します。
- [ Azure サブスクリプション] を選択します。
- [ ワークスペース名] を選択します。
- [ 専用 SQL エンドポイント] を選択します。
- サーバーレス SQL エンドポイントを選択します。
- [ エンドポイントの種類] を選択します。
- [ データベース] を選択します。
- 資格情報として MSI を追加します。
接続をテストします。 データ ソース接続を構成し、正常にテストしたら、データ プロファイルとデータ品質スキャンの構成と実行に進むことができます。
Synapse データ ソースがプライベート エンドポイントの背後にある場合は、マネージド vNet を有効にする必要があります。 マネージド vNet を構成する方法に関するドキュメントに従います。
重要
- データ品質スチュワードは、データ品質接続を設定するために synapse 専用データ ウェアハウスへの読み取り専用アクセス権が必要です。
- Synapse サーバーレスセットアップでは、外部テーブルは ADLS Gen2 に格納されている Delta 形式のデータを指します。
- vNet のサポートはゲート プレビュー段階です。 テナントのゲート プレビューの一覧を許可するには、Purview 営業チームに問い合わせてください。
- Synapse Connector は、 sql.azuresynapse.net のみを検出してサポートします。 Data Mmap スキャンによって生成された完全修飾名 (FQN) に database.windows.net が含まれている場合、DQ スキャンの Synapse 接続は失敗します。
Synapse サーバーレスでのデータのプロファイリングとデータ品質 (DQ) スキャン
接続のセットアップが正常に完了したら、synapse ウェアハウス内のデータのプロファイリング、作成、適用、データ品質 (DQ) スキャンを実行できます。 以下のドキュメントで説明されているステップバイステップのガイドラインに従ってください。
重要
- DQ 評価、プロファイルはバックグラウンドで spark で実行されます。お客様は複数の接続を持ち、各 Spark ノードに接続 SPID があるため、DWH を使用または DW 制限を超えてスケジュールされている場合、DWH は現在のクエリ制限に達し、エラーが発生する可能性があります。 ただし、Azure Synapseサーバーレス SQL テーブルの場合 - このようなコンカレンシーの制限は適用されません。これは、お客様が ADLS Gen2 インスタンスに対して持っているサーバーレス Delta Parquet の最適化に完全に依存します。 エンジンは、Databricks Serverless DW の両方が DELTA 形式テーブルなどの外部 Lakehouse ソースで動作することを密接に共感していると見なすことができます。